Skip to main content
Glama
Raghu6798

Browser Automation MCP Server

by Raghu6798

🤖 Агент автоматизации браузера

Мощный инструмент автоматизации браузера, созданный с помощью MCP (Model Controlled Program), который сочетает возможности веб-скрейпинга с интеллектом на основе LLM. Этот агент может выполнять поиск в Google, переходить на веб-страницы и интеллектуально скрейпинговать контент с различных веб-сайтов, включая GitHub, Stack Overflow и сайты документации.

🚀 Особенности

  • 🔍 Интеграция с поиском Google : находит и извлекает лучшие результаты поиска по любому запросу

  • 🕸️ Интеллектуальный веб-скрапинг : индивидуальные стратегии скрапинга для разных типов веб-сайтов:

    • 📂 Репозитории GitHub

    • 💬 Вопросы и ответы Stack Overflow

    • 📚 Страницы документации

    • 🌐 Общие веб-сайты

  • 🧠 Обработка на базе искусственного интеллекта : использует искусственный интеллект Mistral для понимания и обработки собранного контента.

  • 🥷 Скрытый режим : реализует защиту отпечатков пальцев браузера, чтобы избежать обнаружения

  • 💾 Сохранение контента : автоматически сохраняет как скриншоты, так и текстовое содержимое с извлеченных страниц.

Related MCP server: URL Text Fetcher MCP Server

🏗️ Архитектура

В этом проекте используется клиент-серверная архитектура на базе MCP:

  • 🖥️ Сервер : выполняет задачи автоматизации браузера и веб-скрапинга.

  • 👤 Клиент : предоставляет интерфейс ИИ с использованием Mistral AI и LangGraph

  • 📡 Связь : использует stdio для клиент-серверной связи.

⚙️ Требования

  • 🐍 Питон 3.8+

  • 🎭 Драматург

  • 🧩 MCP (Программа с модельным управлением)

  • 🔑 API-ключ Mistral AI

📥 Установка

  1. Клонируйте репозиторий:

git clone https://github.com/yourusername/browser-automation-agent.git
cd browser-automation-agent
  1. Установить зависимости:

pip install -r requirements.txt
  1. Установить браузеры Playwright:

playwright install
  1. Создайте файл .env в корне проекта и добавьте свой ключ API Mistral AI:

MISTRAL_API_KEY=your_api_key_here

📋 Использование

Запуск сервера

python main.py

Запуск клиента

python client.py

Образец взаимодействия

После запуска сервера и клиента:

  1. Введите ваш запрос при появлении соответствующего запроса

  2. Агент будет:

    • 🔍 Найдите в Google соответствующие результаты

    • 🧭 Перейти к верхнему результату

    • 📊 Сбор контента на основе типа веб-сайта

    • 📸 Сохраняйте скриншоты и контент в файлы

    • 📤 Возврат обработанной информации

🛠️ Функции инструмента

get_top_google_url

🔍 Выполняет поиск в Google и возвращает URL-адрес лучшего результата по заданному запросу.

browse_and_scrape

🌐 Переходит по URL-адресу и извлекает контент на основе типа веб-сайта.

scrape_github

📂 Специализируется на извлечении содержимого README и блоков кода из репозиториев GitHub.

scrape_stackoverflow

💬 Извлекает вопросы, ответы, комментарии и блоки кода со страниц Stack Overflow.

scrape_documentation

📚 Оптимизирован для извлечения содержимого документации и примеров кода.

scrape_generic

🌐 Извлекает текст абзацев и блоки кода из общих веб-сайтов.

📁 Структура файла

browser-automation-agent/
├── main.py            # MCP server implementation
├── client.py          # Mistral AI client implementation
├── requirements.txt   # Project dependencies
├── .env               # Environment variables (API keys)
└── README.md          # Project documentation

📤 Выходные файлы

Агент генерирует два типа выходных файлов с временными метками:

  • 📸 final_page_YYYYMMDD_HHMMSS.png : Скриншот конечного состояния страницы

  • 📄 scraped_content_YYYYMMDD_HHMMSS.txt : Извлеченный текстовый контент со страницы

⚙️ Настройка

Вы можете изменить следующие параметры в коде:

  • 🖥️ Размер окна браузера: отрегулируйте width и height в browse_and_scrape

  • 👻 Режим Headless: установите headless=True для невидимой работы браузера.

  • 🔢 Количество результатов Google: Измените num_results в get_top_google_url

❓ Устранение неполадок

  • 🔌 Проблемы с подключением : убедитесь, что сервер и клиент работают на разных терминалах.

  • 🎭 Ошибки Playwright : убедитесь, что браузеры установлены с playwright install

  • 🔑 Ошибки API-ключа : проверьте, правильно ли установлен ваш API-ключ Mistral в файле .env

  • 🛣️ Ошибки пути : при необходимости обновите путь к main.py в client.py

📜 Лицензия

Лицензия Массачусетского технологического института

🤝 Вклад

Вклады приветствуются! Пожалуйста, не стесняйтесь отправлять запрос на включение.


Создано с помощью 🧩 MCP, 🎭 Playwright и 🧠 Mistral AI

-
security - not tested
F
license - not found
-
quality - not tested

Resources

Unclaimed servers have limited discoverability.

Looking for Admin?

If you are the server author, to access and configure the admin panel.

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/Raghu6798/Browser_scrape_mcp'

If you have feedback or need assistance with the MCP directory API, please join our Discord server