Integrations
Uses .env files to securely store and access environment variables, particularly for API keys like the Mistral AI API key
Specialized scraping capabilities for GitHub repositories, focusing on extracting README content and code blocks
Searches Google and returns top search results for any query, allowing the agent to find relevant information across the web
🤖 Агент автоматизации браузера
Мощный инструмент автоматизации браузера, созданный с помощью MCP (Model Controlled Program), который сочетает возможности веб-скрейпинга с интеллектом на основе LLM. Этот агент может выполнять поиск в Google, переходить на веб-страницы и интеллектуально скрейпинговать контент с различных веб-сайтов, включая GitHub, Stack Overflow и сайты документации.
🚀 Особенности
- 🔍 Интеграция с поиском Google : находит и извлекает лучшие результаты поиска по любому запросу
- 🕸️ Интеллектуальный веб-скрапинг : индивидуальные стратегии скрапинга для разных типов веб-сайтов:
- 📂 Репозитории GitHub
- 💬 Вопросы и ответы Stack Overflow
- 📚 Страницы документации
- 🌐 Общие веб-сайты
- 🧠 Обработка на базе искусственного интеллекта : использует искусственный интеллект Mistral для понимания и обработки собранного контента.
- 🥷 Скрытый режим : реализует защиту отпечатков пальцев браузера, чтобы избежать обнаружения
- 💾 Сохранение контента : автоматически сохраняет как скриншоты, так и текстовое содержимое с извлеченных страниц.
🏗️ Архитектура
В этом проекте используется клиент-серверная архитектура на базе MCP:
- 🖥️ Сервер : выполняет задачи автоматизации браузера и веб-скрапинга.
- 👤 Клиент : предоставляет интерфейс ИИ с использованием Mistral AI и LangGraph
- 📡 Связь : использует stdio для клиент-серверной связи.
⚙️ Требования
- 🐍 Питон 3.8+
- 🎭 Драматург
- 🧩 MCP (Программа с модельным управлением)
- 🔑 API-ключ Mistral AI
📥 Установка
- Клонируйте репозиторий:
- Установить зависимости:
- Установить браузеры Playwright:
- Создайте файл
.env
в корне проекта и добавьте свой ключ API Mistral AI:
📋 Использование
Запуск сервера
Запуск клиента
Образец взаимодействия
После запуска сервера и клиента:
- Введите ваш запрос при появлении соответствующего запроса
- Агент будет:
- 🔍 Найдите в Google соответствующие результаты
- 🧭 Перейти к верхнему результату
- 📊 Сбор контента на основе типа веб-сайта
- 📸 Сохраняйте скриншоты и контент в файлы
- 📤 Возврат обработанной информации
🛠️ Функции инструмента
get_top_google_url
🔍 Выполняет поиск в Google и возвращает URL-адрес лучшего результата по заданному запросу.
browse_and_scrape
🌐 Переходит по URL-адресу и извлекает контент на основе типа веб-сайта.
scrape_github
📂 Специализируется на извлечении содержимого README и блоков кода из репозиториев GitHub.
scrape_stackoverflow
💬 Извлекает вопросы, ответы, комментарии и блоки кода со страниц Stack Overflow.
scrape_documentation
📚 Оптимизирован для извлечения содержимого документации и примеров кода.
scrape_generic
🌐 Извлекает текст абзацев и блоки кода из общих веб-сайтов.
📁 Структура файла
📤 Выходные файлы
Агент генерирует два типа выходных файлов с временными метками:
- 📸
final_page_YYYYMMDD_HHMMSS.png
: Скриншот конечного состояния страницы - 📄
scraped_content_YYYYMMDD_HHMMSS.txt
: Извлеченный текстовый контент со страницы
⚙️ Настройка
Вы можете изменить следующие параметры в коде:
- 🖥️ Размер окна браузера: отрегулируйте
width
иheight
вbrowse_and_scrape
- 👻 Режим Headless: установите
headless=True
для невидимой работы браузера. - 🔢 Количество результатов Google: Измените
num_results
вget_top_google_url
❓ Устранение неполадок
- 🔌 Проблемы с подключением : убедитесь, что сервер и клиент работают на разных терминалах.
- 🎭 Ошибки Playwright : убедитесь, что браузеры установлены с
playwright install
- 🔑 Ошибки API-ключа : проверьте, правильно ли установлен ваш API-ключ Mistral в файле
.env
- 🛣️ Ошибки пути : при необходимости обновите путь к
main.py
вclient.py
📜 Лицензия
Лицензия Массачусетского технологического института
🤝 Вклад
Вклады приветствуются! Пожалуйста, не стесняйтесь отправлять запрос на включение.
Создано с помощью 🧩 MCP, 🎭 Playwright и 🧠 Mistral AI
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
Обеспечивает интеллектуальный веб-скрапинг с помощью инструмента автоматизации браузера, который может выполнять поиск в Google, переходить на веб-страницы и извлекать контент с различных веб-сайтов, включая GitHub, Stack Overflow и сайты документации.
Related MCP Servers
- AsecurityAlicenseAqualityEnables web content scanning and analysis by fetching, analyzing, and extracting information from web pages using tools like page fetching, link extraction, site crawling, and more.Last updated -67TypeScriptMIT License
- AsecurityFlicenseAqualityEnables browser automation using Python scripts, offering operations like taking webpage screenshots, retrieving HTML content, and executing JavaScript.Last updated -418Python
- AsecurityAlicenseAqualityA server that provides web scraping and intelligent content searching capabilities using the Firecrawl API, enabling AI agents to extract structured data from websites and perform content searches.Last updated -52TypeScriptMIT License
- AsecurityFlicenseAqualityA server that provides tools to scrape websites and extract structured data from them using Firecrawl's APIs, supporting both basic website scraping in multiple formats and custom schema-based data extraction.Last updated -2JavaScript