🤖 Агент автоматизации браузера
Мощный инструмент автоматизации браузера, созданный с помощью MCP (Model Controlled Program), который сочетает возможности веб-скрейпинга с интеллектом на основе LLM. Этот агент может выполнять поиск в Google, переходить на веб-страницы и интеллектуально скрейпинговать контент с различных веб-сайтов, включая GitHub, Stack Overflow и сайты документации.
🚀 Особенности
- 🔍 Интеграция с поиском Google : находит и извлекает лучшие результаты поиска по любому запросу
- 🕸️ Интеллектуальный веб-скрапинг : индивидуальные стратегии скрапинга для разных типов веб-сайтов:
- 📂 Репозитории GitHub
- 💬 Вопросы и ответы Stack Overflow
- 📚 Страницы документации
- 🌐 Общие веб-сайты
- 🧠 Обработка на базе искусственного интеллекта : использует искусственный интеллект Mistral для понимания и обработки собранного контента.
- 🥷 Скрытый режим : реализует защиту отпечатков пальцев браузера, чтобы избежать обнаружения
- 💾 Сохранение контента : автоматически сохраняет как скриншоты, так и текстовое содержимое с извлеченных страниц.
🏗️ Архитектура
В этом проекте используется клиент-серверная архитектура на базе MCP:
- 🖥️ Сервер : выполняет задачи автоматизации браузера и веб-скрапинга.
- 👤 Клиент : предоставляет интерфейс ИИ с использованием Mistral AI и LangGraph
- 📡 Связь : использует stdio для клиент-серверной связи.
⚙️ Требования
- 🐍 Питон 3.8+
- 🎭 Драматург
- 🧩 MCP (Программа с модельным управлением)
- 🔑 API-ключ Mistral AI
📥 Установка
- Клонируйте репозиторий:
- Установить зависимости:
- Установить браузеры Playwright:
- Создайте файл
.env
в корне проекта и добавьте свой ключ API Mistral AI:
📋 Использование
Запуск сервера
Запуск клиента
Образец взаимодействия
После запуска сервера и клиента:
- Введите ваш запрос при появлении соответствующего запроса
- Агент будет:
- 🔍 Найдите в Google соответствующие результаты
- 🧭 Перейти к верхнему результату
- 📊 Сбор контента на основе типа веб-сайта
- 📸 Сохраняйте скриншоты и контент в файлы
- 📤 Возврат обработанной информации
🛠️ Функции инструмента
get_top_google_url
🔍 Выполняет поиск в Google и возвращает URL-адрес лучшего результата по заданному запросу.
browse_and_scrape
🌐 Переходит по URL-адресу и извлекает контент на основе типа веб-сайта.
scrape_github
📂 Специализируется на извлечении содержимого README и блоков кода из репозиториев GitHub.
scrape_stackoverflow
💬 Извлекает вопросы, ответы, комментарии и блоки кода со страниц Stack Overflow.
scrape_documentation
📚 Оптимизирован для извлечения содержимого документации и примеров кода.
scrape_generic
🌐 Извлекает текст абзацев и блоки кода из общих веб-сайтов.
📁 Структура файла
📤 Выходные файлы
Агент генерирует два типа выходных файлов с временными метками:
- 📸
final_page_YYYYMMDD_HHMMSS.png
: Скриншот конечного состояния страницы - 📄
scraped_content_YYYYMMDD_HHMMSS.txt
: Извлеченный текстовый контент со страницы
⚙️ Настройка
Вы можете изменить следующие параметры в коде:
- 🖥️ Размер окна браузера: отрегулируйте
width
иheight
вbrowse_and_scrape
- 👻 Режим Headless: установите
headless=True
для невидимой работы браузера. - 🔢 Количество результатов Google: Измените
num_results
вget_top_google_url
❓ Устранение неполадок
- 🔌 Проблемы с подключением : убедитесь, что сервер и клиент работают на разных терминалах.
- 🎭 Ошибки Playwright : убедитесь, что браузеры установлены с
playwright install
- 🔑 Ошибки API-ключа : проверьте, правильно ли установлен ваш API-ключ Mistral в файле
.env
- 🛣️ Ошибки пути : при необходимости обновите путь к
main.py
вclient.py
📜 Лицензия
Лицензия Массачусетского технологического института
🤝 Вклад
Вклады приветствуются! Пожалуйста, не стесняйтесь отправлять запрос на включение.
Создано с помощью 🧩 MCP, 🎭 Playwright и 🧠 Mistral AI
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
Обеспечивает интеллектуальный веб-скрапинг с помощью инструмента автоматизации браузера, который может выполнять поиск в Google, переходить на веб-страницы и извлекать контент с различных веб-сайтов, включая GitHub, Stack Overflow и сайты документации.
Related MCP Servers
- AsecurityAlicenseAqualityEnables web content scanning and analysis by fetching, analyzing, and extracting information from web pages using tools like page fetching, link extraction, site crawling, and more.Last updated -67TypeScriptMIT License
- AsecurityFlicenseAqualityEnables browser automation using Python scripts, offering operations like taking webpage screenshots, retrieving HTML content, and executing JavaScript.Last updated -418Python
- AsecurityAlicenseAqualityA server that provides web scraping and intelligent content searching capabilities using the Firecrawl API, enabling AI agents to extract structured data from websites and perform content searches.Last updated -52TypeScriptMIT License
- AsecurityFlicenseAqualityA server that provides tools to scrape websites and extract structured data from them using Firecrawl's APIs, supporting both basic website scraping in multiple formats and custom schema-based data extraction.Last updated -2JavaScript