ブラウザ使用サーバー
Pythonスクリプトを使用したブラウザ自動化のためのモデルコンテキストプロトコルサーバー。Clineで使用
特徴
ブラウザ操作
screenshot: ウェブページ(全ページまたはビューポート)のスクリーンショットをキャプチャしますget_html: ウェブページのHTMLコンテンツを取得するexecute_js: ウェブページでJavaScriptを実行するget_console_logs: Webページからコンソールログを取得する
すべての操作は、ページの読み込み後のカスタム インタラクション ステップ (要素のクリック、スクロールなど) をサポートします。
前提条件
(オプションですが推奨) ヘッドレス ブラウザ自動化用に Xvfb をインストールします。
Xvfb(X Virtual Frame Buffer)は仮想ディスプレイを作成し、ボットとして検知されることなくブラウザの自動化を可能にします。Xvfbの詳細については、こちらをご覧ください。
MinicondaまたはAnacondaをインストールする
Conda 環境を作成します。
LLM 構成をセットアップします。
サーバーは複数のLLMプロバイダーをサポートしています。以下のAPIキーのいずれかを使用できます。
サーバーは最初に見つかった利用可能なAPIキーを自動的に使用します。オプションで、環境変数を使用して、プロバイダーのモデルとベースURLをカスタマイズできます。
インストール
Smithery経由でインストール
Smithery経由で Claude Desktop 用の Browser Use Server を自動的にインストールするには:
このリポジトリを
/home/YOUR_HOME/Documents/Cline/ディレクトリにクローンします。依存関係をインストールします:
サーバーを構築します。
MCP構成
Cline MCP 設定に次の構成を追加します。
交換する:
YOUR_HOME実際のホームディレクトリ名に置き換えますyour_api_key実際の API キーに置き換えます
使用法
サーバーを実行します。
サーバーは stdio で利用可能になり、次の操作をサポートします。
スクリーンショット
パラメータ:
url: ウェブページのURL(必須)
full_page: ページ全体をキャプチャするか、ビューポートのみをキャプチャするか(オプション、デフォルト: false)
手順: ページの読み込み後に実行する手順をカンマで区切って記述するアクションまたは文章(オプション)
HTMLを取得
パラメータ:
url: ウェブページのURL(必須)
手順: ページの読み込み後に実行する手順をカンマで区切って記述するアクションまたは文章(オプション)
JavaScriptを実行する
パラメータ:
url: ウェブページのURL(必須)
スクリプト: 実行する JavaScript コード (必須)
手順: ページの読み込み後に実行する手順をカンマで区切って記述するアクションまたは文章(オプション)
コンソールログを取得する
パラメータ:
url: ウェブページのURL(必須)
手順: ページの読み込み後に実行する手順をカンマで区切って記述するアクションまたは文章(オプション)
クラインの使用例
Cline でブラウザ用サーバーを使用して実行できるタスクの例を次に示します。
開発中のWebページ要素の変更
認証が必要なページの見出しの色を変更するには:
このタスクでは次のことを示します。
カンマ区切りのステップを使用した複数ステップのブラウザ自動化
認証処理
クッキーの承認
DOM操作
CSSスタイルの変更
サーバーはこれらのステップを順番に実行し、その途中で必要なやり取りを処理します。
構成
LLM 構成
サーバーは、デフォルト構成で複数の LLM プロバイダーをサポートします。
GLHF: deepseek-ai/DeepSeek-V3 モデルを使用
Ollama: 32k コンテキスト ウィンドウの qwen2.5:32b-instruct-q4_K_M モデルを使用します
Groq: deepseek-r1-distill-llama-70b モデルを使用
OpenAI: gpt-4o-mini モデルを使用
Openrouter: deepseek/deepseek-chat モデルを使用
Github: gpt-4o-mini モデルを使用
DeepSeek: deepseek-chat モデルを使用
Gemini: gemini-2.0-flash-exp モデルを使用
環境変数を使用してこれらのデフォルトを上書きできます。
MODEL: 任意のプロバイダーのカスタムモデル名を設定しますBASE_URL: カスタム API エンドポイント URL を設定します (プロバイダーがサポートしている場合)
視力サポート
サーバーは、USE_VISION 環境変数を通じてビジョン機能をサポートします。
ブラウザ操作のビジョン機能を有効にするには、USE_VISION=true を設定します。
ビジョンが必要ない場合にパフォーマンスを最適化するために、デフォルトは false です。
ウェブページのコンテンツを視覚的に理解する必要があるタスクに役立ちます
Xvfb サポート
サーバーは、Xvfb がインストールされているかどうかを自動的に検出し、次の操作を実行します。
利用可能な場合は xvfb-run を使用し、ボット検出なしでブラウザの自動化を改善します。
Xvfbがインストールされていない場合は直接実行にフォールバックします
RUNNING_UNDER_XVFB環境変数を適宜設定します
タイムアウト
デフォルトのタイムアウトは5分(300000ミリ秒)です。これを変更するには、 build/index.jsのTIMEOUT定数を変更してください。
エラー処理
サーバーは、次の詳細なエラー メッセージを提供します。
Pythonスクリプトの実行失敗
ブラウザ操作のタイムアウト
無効なパラメータ
デバッグ
デバッグには MCP インスペクタを使用します。
用途
ライセンス
マサチューセッツ工科大学
Related MCP Servers
- Asecurity-licenseAqualityFacilitates browser automation with custom capabilities and agent-based interactions, integrated through the browser-use library.Last updated -1818MIT License
- -security-license-qualityEnables intelligent web scraping through a browser automation tool that can search Google, navigate to webpages, and extract content from various websites including GitHub, Stack Overflow, and documentation sites.Last updated -1
- -security-license-qualityEnables AI assistants to control a browser through a set of tools, allowing them to perform web automation tasks like navigation, typing, clicking, and taking screenshots.Last updated -
- -security-license-qualityEnables AI assistants to control a browser through a set of tools, allowing them to perform web automation tasks like navigation, typing, clicking, and taking screenshots.Last updated -