browser-use MCP server

Integrations

  • Connects to Google's Gemini API using the Google API key for AI-driven browser automation tasks

  • Provides integration with Ollama's local LLM hosting service, supporting customizable context settings and model parameters for browser automation

  • Integrates with OpenAI's API for LLM functionality, enabling AI-powered browser control with customizable parameters

ブラウザ用MCPサーバー

プロジェクトノート:このMCPサーバー実装は、ブラウザ使用/Web UIの基盤上に構築されています。コアブラウザ自動化ロジックと設定パターンは、元のプロジェクトから改変されています。

自然言語によるブラウザ制御用のモデル コンテキスト プロトコル (MCP) を実装した AI 駆動型ブラウザ自動化サーバー。

特徴

  • 🧠 MCP 統合- AI エージェント通信のための完全なプロトコル実装
  • 🌐ブラウザ自動化- ページナビゲーション、フォーム入力、要素の操作
  • 👁️視覚的理解- スクリーンショット分析と視覚ベースのインタラクション
  • 🔄状態の永続性- タスク間でブラウザセッションを維持する
  • 🔌マルチ LLM サポート- OpenAI、Anthropic、Azure、DeepSeek の統合

クイックスタート

前提条件

  • Python 3.11以上
  • uv (高速 Python パッケージ インストーラー)
  • Chrome/Chromiumブラウザ

インストール

クロードデスクトップ

MacOS の場合: ~/Library/Application\ Support/Claude/claude_desktop_config.json Windows の場合: %APPDATA%/Claude/claude_desktop_config.json

"mcpServers": { "browser-use": { "command": "uvx", "args": [ "mcp-server-browser-use", ], "env": { "OPENROUTER_API_KEY": "", "OPENROUTER_ENDPOINT": "https://openrouter.ai/api/v1", "OPENAI_ENDPOINT": "https://api.openai.com/v1", "OPENAI_API_KEY": "", "ANTHROPIC_ENDPOINT": "https://api.anthropic.com", "ANTHROPIC_API_KEY": "", "GOOGLE_API_KEY": "", "AZURE_OPENAI_ENDPOINT": "", "AZURE_OPENAI_API_KEY": "", "DEEPSEEK_ENDPOINT": "https://api.deepseek.com", "DEEPSEEK_API_KEY": "", "MISTRAL_API_KEY": "", "MISTRAL_ENDPOINT": "https://api.mistral.ai/v1", "OLLAMA_ENDPOINT": "http://localhost:11434", "ANONYMIZED_TELEMETRY": "true", "BROWSER_USE_LOGGING_LEVEL": "info", "CHROME_PATH": "", "CHROME_USER_DATA": "", "CHROME_DEBUGGING_PORT": "9222", "CHROME_DEBUGGING_HOST": "localhost", "CHROME_PERSISTENT_SESSION": "false", "BROWSER_HEADLESS": "false", "BROWSER_DISABLE_SECURITY": "false", "BROWSER_WINDOW_WIDTH": "1280", "BROWSER_WINDOW_HEIGHT": "720", "BROWSER_TRACE_PATH": "trace.json", "BROWSER_RECORDING_PATH": "recording.mp4", "RESOLUTION": "1920x1080x24", "RESOLUTION_WIDTH": "1920", "RESOLUTION_HEIGHT": "1080", "VNC_PASSWORD": "youvncpassword", "MCP_MODEL_PROVIDER": "anthropic", "MCP_MODEL_NAME": "claude-3-5-sonnet-20241022", "MCP_TEMPERATURE": "0.3", "MCP_MAX_STEPS": "30", "MCP_USE_VISION": "true", "MCP_MAX_ACTIONS_PER_STEP": "5", "MCP_TOOL_CALL_IN_CONTENT": "true" } }

地域開発

"browser-use": { "command": "uv", "args": [ "--directory", "/path/to/mcp-browser-use", "run", "mcp-server-browser-use" ], "env": { ... } }

発達

# Install dev dependencies uv sync # Run with debugger npx @modelcontextprotocol/inspector uv --directory . run mcp-server-browser-use

トラブルシューティング

  • ブラウザの競合: 開始する前にすべての Chrome インスタンスを閉じます。
  • API エラー: 環境変数の API キーが LLM プロバイダーと一致していることを確認します。
  • ビジョン サポート: スクリーンショット分析のためにMCP_USE_VISION=trueことを確認します。

プロバイダー構成

サーバーは環境変数を通じて複数のLLMプロバイダーをサポートします。MCP_MODEL_PROVIDERで利用可能なオプションMCP_MODEL_PROVIDER以下のとおりです。

プロバイダー価値必要な環境変数
人類学的anthropicANTHROPIC_API_KEY ANTHROPIC_ENDPOINT (オプション)
オープンAIopenaiOPENAI_API_KEY OPENAI_ENDPOINT (オプション)
Azure OpenAIazure_openaiAZURE_OPENAI_API_KEY AZURE_OPENAI_ENDPOINT
ディープシークdeepseekDEEPSEEK_API_KEY DEEPSEEK_ENDPOINT (オプション)
ジェミニgeminiGOOGLE_API_KEY
ミストラルmistralMISTRAL_API_KEY MISTRAL_ENDPOINT (オプション)
オラマollamaOLLAMA_ENDPOINT (オプション、デフォルトは localhost:11434)
オープンルーターopenrouterOPENROUTER_API_KEY OPENROUTER_ENDPOINT (オプション)

注記:

  • オプションとしてマークされたエンドポイントについては、指定されていない場合はデフォルト値が使用されます。
  • 温度はMCP_TEMPERATUREを使用して設定できます(デフォルト:0.3)
  • モデルはMCP_MODEL_NAMEを使用して指定できます
  • Ollamaモデルでは、 num_ctxnum_predictなどの追加のコンテキスト設定が構成可能です。

クレジット

このプロジェクトは、MITライセンスに基づき、 browser-use/web-uiを拡張したものです。ブラウザ自動化フレームワークを開発してくださったオリジナルの作者の方々に深く感謝いたします。

ライセンス

MIT - 詳細についてはライセンスを参照してください。

-
security - not tested
A
license - permissive license
-
quality - not tested

local-only server

The server can only run on the client's local machine because it depends on local resources.

モデル コンテキスト プロトコルを実装し、ナビゲーション、フォームの入力、視覚的な操作などのタスクで Web ブラウザーの自然言語制御を可能にする AI 駆動型ブラウザー自動化サーバーです。

  1. Features
    1. Quick Start
      1. Prerequisites
      2. Installation
      3. Local Development
    2. Development
      1. Troubleshooting
        1. Provider Configuration
          1. Notes:
        2. Credits
          1. License

            Related MCP Servers

            • A
              security
              F
              license
              A
              quality
              Enables AI agents to interact with web browsers using natural language, featuring automated browsing, form filling, vision-based element detection, and structured JSON responses for systematic browser control.
              Last updated -
              1
              34
              Python
              • Linux
              • Apple
            • -
              security
              A
              license
              -
              quality
              A Model Context Protocol server that enables AI agents to interact with ClickUp workspaces, allowing task creation, management, and workspace organization through natural language commands.
              Last updated -
              203
              MIT License
            • -
              security
              F
              license
              -
              quality
              A web browser automation server that allows AI assistants to control Chrome with persistent state management, enabling complex browsing tasks through asynchronous browser operations.
              Last updated -
              1
              Python
              • Apple
            • -
              security
              -
              license
              -
              quality
              A Model Context Protocol server that enables AI assistants to control Chrome browsers through the Chrome DevTools Protocol, allowing for navigation, clicking, typing, and extracting page information.
              Last updated -
              3
              TypeScript

            View all related MCP servers

            ID: 6x4tavwjkj