MCP Browser Use Server

by JovaniPink

Integrations

  • Includes support for Google API integration as evidenced by the GOOGLE_API_KEY environment variable in the configuration.

  • Supports integration with Ollama for local execution of Large Language Models, providing an alternative to cloud-based AI providers.

  • Integrates with OpenAI's models for language and vision capabilities, allowing the browser automation system to leverage OpenAI's AI models for processing and generating content.

MCP-сервер с использованием браузера

MCP-сервер для использования в браузере .

Обзор

Этот репозиторий содержит сервер для библиотеки браузера , которая обеспечивает мощную систему автоматизации браузера, позволяющую агентам ИИ взаимодействовать с веб-браузерами посредством естественного языка. Сервер построен на протоколе контекста модели (MCP) Anthropic и обеспечивает бесшовную интеграцию с библиотекой браузера .

Функции

  1. Управление браузером
  • Автоматизированное взаимодействие с браузером посредством естественного языка
  • Возможности навигации, заполнения форм, нажатия и прокрутки
  • Управление вкладками и функциональность скриншотов
  • Управление файлами cookie и состоянием
  1. Система Агентов
  • Реализация пользовательского агента в custom_agent.py
  • Обнаружение элементов на основе зрения
  • Структурированные ответы JSON для действий
  • Управление историей сообщений и ее обобщение
  1. Конфигурация
  • Конфигурация API-ключей и настроек на основе среды
  • Настройки браузера Chrome (порт отладки, сохранение)
  • Выбор поставщика модели и параметры

Зависимости

Этот проект использует следующие пакеты Python:

УпаковкаВерсияОписание
Подушка>=10.1.0Форк библиотеки Python Imaging Library (PIL), добавляющий возможности обработки изображений в ваш интерпретатор Python.
использование браузера==0.1.19Мощная система автоматизации браузера, которая позволяет агентам ИИ взаимодействовать с веб-браузерами посредством естественного языка. Основная библиотека, которая обеспечивает возможности автоматизации браузера этого проекта.
фастапи>=0,115,6Современный, быстрый (высокопроизводительный) веб-фреймворк для создания API с Python 3.7+ на основе стандартных подсказок типов Python. Используется для создания сервера, который раскрывает функциональность агента.
fastmcp>=0.4.1Фреймворк, оборачивающий FastAPI для создания серверов MCP (Model Context Protocol).
инструктор>=1.7.2Библиотека для структурированного вывода подсказок и проверки с моделями OpenAI. Позволяет извлекать структурированные данные из ответов модели.
langchain>=0.3.14Фреймворк для разработки приложений с большими языковыми моделями (LLM). Предоставляет инструменты для объединения различных компонентов языковой модели и взаимодействия с различными API и источниками данных.
langchain-google-genai>=2.1.1Интеграция LangChain для моделей Google GenAI, позволяющая использовать возможности генеративного ИИ Google в рамках LangChain.
langchain-openai>=0.2.14Интеграция LangChain с моделями OpenAI. Позволяет использовать модели OpenAI (например, GPT-4) в рамках LangChain. Используется в этом проекте для взаимодействия с моделями языка и зрения OpenAI.
langchain-ollama>=0.2.2Интеграция Langchain для Ollama, обеспечивающая локальное выполнение LLM.
опенай>=1.59.5Официальная клиентская библиотека Python для API OpenAI. Используется для прямого взаимодействия с моделями OpenAI (при необходимости, в дополнение к LangChain).
python-dotenv>=1.0.1Считывает пары ключ-значение из файла .env и устанавливает их как переменные среды. Упрощает локальную разработку и управление конфигурацией.
пидантический>=2.10.5Проверка данных и управление настройками с использованием аннотаций типов Python. Обеспечивает принудительное применение типов во время выполнения и автоматическое создание моделей. Необходим для определения структурированных моделей данных в агенте.
pyperclip>=1.9.0Кроссплатформенный модуль Python для функций копирования и вставки буфера обмена.
увикорн>=0,22,0Реализация веб-сервера ASGI для Python. Используется для обслуживания приложения FastAPI.

Компоненты

Ресурсы

На сервере реализована система автоматизации браузера с:

  • Интеграция с библиотекой браузера для расширенного управления браузером
  • Возможности автоматизации пользовательского браузера
  • Система взаимодействия на основе агентов с возможностями визуализации
  • Постоянное управление состоянием
  • Настраиваемые параметры модели

Требования

  • Операционные системы (Linux, macOS, Windows; мы не тестировали Docker или Microsoft WSL)
  • Python 3.11 или выше
  • uv (быстрый установщик пакетов Python)
  • Браузер Chrome/Chromium
  • Клод Десктоп

Быстрый старт

Клод Десктоп

В MacOS: ~/Library/Application\ Support/Claude/claude_desktop_config.json В Windows: %APPDATA%/Claude/claude_desktop_config.json

Установка через Smithery

Для автоматической установки Browser Use for Claude Desktop через Smithery :

npx -y @smithery/cli install @JovaniPink/mcp-browser-use --client claude
"mcpServers": { "mcp_server_browser_use": { "command": "uvx", "args": [ "mcp-server-browser-use", ], "env": { "OPENAI_ENDPOINT": "https://api.openai.com/v1", "OPENAI_API_KEY": "", "ANTHROPIC_API_KEY": "", "GOOGLE_API_KEY": "", "AZURE_OPENAI_ENDPOINT": "", "AZURE_OPENAI_API_KEY": "", // "DEEPSEEK_ENDPOINT": "https://api.deepseek.com", // "DEEPSEEK_API_KEY": "", // Set to false to disable anonymized telemetry "ANONYMIZED_TELEMETRY": "false", // Chrome settings "CHROME_PATH": "", "CHROME_USER_DATA": "", "CHROME_DEBUGGING_PORT": "9222", "CHROME_DEBUGGING_HOST": "localhost", // Set to true to keep browser open between AI tasks "CHROME_PERSISTENT_SESSION": "false", // Model settings "MCP_MODEL_PROVIDER": "anthropic", "MCP_MODEL_NAME": "claude-3-5-sonnet-20241022", "MCP_TEMPERATURE": "0.3", "MCP_MAX_STEPS": "30", "MCP_USE_VISION": "true", "MCP_MAX_ACTIONS_PER_STEP": "5", "MCP_TOOL_CALL_IN_CONTENT": "true" } } }

Переменные среды

Ключевые переменные среды:

# API Keys ANTHROPIC_API_KEY=anthropic_key # Chrome Configuration # Optional: Path to Chrome executable CHROME_PATH=/path/to/chrome # Optional: Chrome user data directory CHROME_USER_DATA=/path/to/user/data # Default: 9222 CHROME_DEBUGGING_PORT=9222 # Default: localhost CHROME_DEBUGGING_HOST=localhost # Keep browser open between tasks CHROME_PERSISTENT_SESSION=false # Model Settings # Options: anthropic, openai, azure, deepseek MCP_MODEL_PROVIDER=anthropic # Model name MCP_MODEL_NAME=claude-3-5-sonnet-20241022 MCP_TEMPERATURE=0.3 MCP_MAX_STEPS=30 MCP_USE_VISION=true MCP_MAX_ACTIONS_PER_STEP=5

Разработка

Настраивать

  1. Клонируйте репозиторий:
git clone https://github.com/JovaniPink/mcp-browser-use.git cd mcp-browser-use
  1. Создать и активировать виртуальную среду:
python -m venv .venv source .venv/bin/activate # On Windows: .venv\Scripts\activate
  1. Установить зависимости:
uv sync
  1. Запустить сервер
uv run mcp-browser-use

Отладка

Для отладки используйте MCP Inspector :

npx @modelcontextprotocol/inspector uv --directory /path/to/project run mcp-server-browser-use

Инспектор отобразит URL-адрес интерфейса отладки.

Действия браузера

Сервер поддерживает различные действия браузера посредством естественного языка:

  • Навигация: переход по URL-адресам, назад/вперед, обновление
  • Взаимодействие: щелчок, ввод текста, прокрутка, наведение курсора.
  • Формы: заполните формы, отправьте, выберите параметры
  • Состояние: Получить содержимое страницы, сделать скриншоты
  • Вкладки: создание, закрытие, переключение между вкладками
  • Видение: поиск элементов по внешнему виду
  • Файлы cookie и хранилище: управление состоянием браузера

Безопасность

Хочу отметить, что некоторые настройки Chrome настроены так, чтобы сервер мог управлять браузером. Это риск для безопасности и должно использоваться с осторожностью. Сервер не предназначен для использования в производственной среде.

Подробности безопасности: SECURITY.MD

Внося вклад

Мы приветствуем вклады в этот проект. Пожалуйста, выполните следующие шаги:

  1. Сделайте форк этого репозитория.
  2. Создайте ветку функций: git checkout -b my-new-feature .
  3. Зафиксируйте изменения: git commit -m 'Add some feature' .
  4. Отправка в ветку: git push origin my-new-feature .
  5. Отправьте запрос на извлечение.

Для крупных изменений сначала откройте вопрос, чтобы обсудить, что вы хотели бы изменить. Пожалуйста, обновите тесты соответствующим образом, чтобы отразить любые внесенные изменения.

You must be authenticated.

A
security – no known vulnerabilities
F
license - not found
A
quality - confirmed to work

local-only server

The server can only run on the client's local machine because it depends on local resources.

Позволяет агентам ИИ взаимодействовать с веб-браузерами, используя естественный язык, обеспечивая автоматизированный просмотр, заполнение форм, обнаружение элементов на основе зрения и структурированные ответы JSON для систематического управления браузером.

  1. Обзор
    1. Функции
      1. Зависимости
        1. Компоненты
          1. Ресурсы
          2. Требования
          3. Быстрый старт
          4. Переменные среды
        2. Разработка
          1. Настраивать
          2. Отладка
        3. Действия браузера
          1. Безопасность
            1. Внося вклад

              Related MCP Servers

              • -
                security
                F
                license
                -
                quality
                Enables AI agents to control web browsers via a standardized interface for operations like launching, interacting with, and closing browsers.
                Last updated -
                0
                JavaScript
              • -
                security
                F
                license
                -
                quality
                A web browser automation server that allows AI assistants to control Chrome with persistent state management, enabling complex browsing tasks through asynchronous browser operations.
                Last updated -
                1
                Python
                • Apple
              • -
                security
                A
                license
                -
                quality
                AI-driven browser automation server that implements the Model Context Protocol to enable natural language control of web browsers for tasks like navigation, form filling, and visual interaction.
                Last updated -
                1
                Python
                MIT License
                • Apple
              • -
                security
                A
                license
                -
                quality
                Empowers AI agents to perform web browsing, automation, and scraping tasks with minimal supervision using natural language instructions and Selenium.
                Last updated -
                1
                Python
                Apache 2.0
                • Apple

              View all related MCP servers

              ID: tjea5rgnbv