ブラウザ用MCPサーバー
プロジェクトノート:このMCPサーバー実装は、ブラウザ使用/Web UIの基盤上に構築されています。コアブラウザ自動化ロジックと設定パターンは、元のプロジェクトから改変されています。
自然言語によるブラウザ制御用のモデル コンテキスト プロトコル (MCP) を実装した AI 駆動型ブラウザ自動化サーバー。
特徴
- 🧠 MCP 統合- AI エージェント通信のための完全なプロトコル実装
- 🌐ブラウザ自動化- ページナビゲーション、フォーム入力、要素の操作
- 👁️視覚的理解- スクリーンショット分析と視覚ベースのインタラクション
- 🔄状態の永続性- タスク間でブラウザセッションを維持する
- 🔌マルチ LLM サポート- OpenAI、Anthropic、Azure、DeepSeek の統合
クイックスタート
前提条件
- Python 3.11以上
- uv (高速 Python パッケージ インストーラー)
- Chrome/Chromiumブラウザ
インストール
クロードデスクトップ
MacOS の場合: ~/Library/Application\ Support/Claude/claude_desktop_config.json
Windows の場合: %APPDATA%/Claude/claude_desktop_config.json
地域開発
発達
トラブルシューティング
- ブラウザの競合: 開始する前にすべての Chrome インスタンスを閉じます。
- API エラー: 環境変数の API キーが LLM プロバイダーと一致していることを確認します。
- ビジョン サポート: スクリーンショット分析のために
MCP_USE_VISION=true
ことを確認します。
プロバイダー構成
サーバーは環境変数を通じて複数のLLMプロバイダーをサポートします。MCP_MODEL_PROVIDERで利用可能なオプションMCP_MODEL_PROVIDER
以下のとおりです。
プロバイダー | 価値 | 必要な環境変数 |
---|---|---|
人類学的 | anthropic | ANTHROPIC_API_KEY ANTHROPIC_ENDPOINT (オプション) |
オープンAI | openai | OPENAI_API_KEY OPENAI_ENDPOINT (オプション) |
Azure OpenAI | azure_openai | AZURE_OPENAI_API_KEY AZURE_OPENAI_ENDPOINT |
ディープシーク | deepseek | DEEPSEEK_API_KEY DEEPSEEK_ENDPOINT (オプション) |
ジェミニ | gemini | GOOGLE_API_KEY |
ミストラル | mistral | MISTRAL_API_KEY MISTRAL_ENDPOINT (オプション) |
オラマ | ollama | OLLAMA_ENDPOINT (オプション、デフォルトは localhost:11434) |
オープンルーター | openrouter | OPENROUTER_API_KEY OPENROUTER_ENDPOINT (オプション) |
注記:
- オプションとしてマークされたエンドポイントについては、指定されていない場合はデフォルト値が使用されます。
- 温度は
MCP_TEMPERATURE
を使用して設定できます(デフォルト:0.3) - モデルは
MCP_MODEL_NAME
を使用して指定できます - Ollamaモデルでは、
num_ctx
やnum_predict
などの追加のコンテキスト設定が構成可能です。
クレジット
このプロジェクトは、MITライセンスに基づき、 browser-use/web-uiを拡張したものです。ブラウザ自動化フレームワークを開発してくださったオリジナルの作者の方々に深く感謝いたします。
ライセンス
MIT - 詳細についてはライセンスを参照してください。
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
モデル コンテキスト プロトコルを実装し、ナビゲーション、フォームの入力、視覚的な操作などのタスクで Web ブラウザーの自然言語制御を可能にする AI 駆動型ブラウザー自動化サーバーです。
Related MCP Servers
- AsecurityFlicenseAqualityEnables AI agents to interact with web browsers using natural language, featuring automated browsing, form filling, vision-based element detection, and structured JSON responses for systematic browser control.Last updated -146Python
- -securityAlicense-qualityA Model Context Protocol server that enables AI agents to interact with ClickUp workspaces, allowing task creation, management, and workspace organization through natural language commands.Last updated -605MIT License
- -securityFlicense-qualityA web browser automation server that allows AI assistants to control Chrome with persistent state management, enabling complex browsing tasks through asynchronous browser operations.Last updated -1Python
- -security-license-qualityA Model Context Protocol server that enables AI assistants to control Chrome browsers through the Chrome DevTools Protocol, allowing for navigation, clicking, typing, and extracting page information.Last updated -3TypeScript