MCP Browser Agent

by ashley-ha

Integrations

  • Provides automated browser interaction within Google Chrome, allowing for element detection, navigation, and state management in web applications

  • Supports browser automation on macOS systems with specific compatibility for darwin 24.2.0

MCP ブラウザエージェント

AGI House MCPハッカソンで構築

概要

このプロジェクトは、モデルコンテキストプロトコル(MCP)を使用してブラウザインタラクションを可能にするブラウザ自動化エージェントです。MCPサーバーを介して、Claudeとブラウザ自動化機能をシームレスに統合します。

MCP サーバーの強化に役立つブラウザー エージェント機能を提供してくれた Browser-Use に感謝します。

システム要件

  • macOS (ダーウィン 24.2.0)
  • Python 3.12以上
  • uvパッケージマネージャー
  • Google Chrome ブラウザ (タスクを実行する前にブラウザが閉じていることを確認してください。)

インストール

Smithery経由でインストール

Smithery経由で Claude Desktop 用の Browser Automation Agent を自動的にインストールするには:

npx -y @smithery/cli install @ashley-ha/mcp-manus --client claude

手動インストール

  1. リポジトリをクローンします。
git clone <repository-url> cd mcp
  1. uvを使用して Python 環境をセットアップします。
uv venv source .venv/bin/activate uv sync

構成

クロードデスクトップ構成

Claude Desktop 構成ファイルを作成または変更します。

{ "mcpServers": { "browser-use": { "command": "uv", "args": [ "--directory", "/ABSOLUTE/PATH/TO/mcp", "run", "browser-use.py" ] } } }

/ABSOLUTE/PATH/TO/browser-useプロジェクト ディレクトリへの絶対パスに置き換えます。

ブラウザの設定

エージェントは、次のデフォルト設定で Google Chrome を使用するように構成されています。

  • 開発用の非ヘッドレスモード
  • ウィンドウサイズ: 1280x1100
  • テストのためにセキュリティ機能を無効にしました
  • 録音パス: ./tmp/recordings

特徴

  • MCPツールによるブラウザ自動化
  • 国家管理および計画能力
  • インタラクティブな要素の検出と操作
  • 設定可能なブラウザコンテキスト
  • ログ記録とデバッグのサポート

使用法

エージェントは主に 2 つのツールを提供します。

  1. get_planner_state : 現在のブラウザの状態と計画コンテキストを取得します
  2. execute_actions : ブラウザで計画されたアクションを実行する

発達

ログ記録

このプロジェクトでは、次の構成で Python の組み込みログ記録を使用します。

  • すべてのログはstderrに送信されます
  • カスタム書式: %(levelname)-8s [%(name)s] %(message)s
  • ルートロガーレベル: INFO
  • サードパーティのロガーレベル: 警告

プロジェクト構造

  • browser-use.py : メインエントリポイントとサーバーの実装
  • tmp/recordings : ブラウザセッションの記録用のディレクトリ
  • uvを通じて管理される依存関係

貢献

このプロジェクトはAGI House MCPハッカソン中に構築されました。貢献を歓迎します!

ライセンス

このプロジェクトは MIT ライセンスに基づいてライセンスされています - 詳細についてはLICENSEファイルを参照してください。

著作権 (c) 2025 Jaeyun Ha、Ashley Ha

本ソフトウェアおよび関連ドキュメント ファイル (以下「本ソフトウェア」) のコピーを入手したすべての人物は、以下の条件に従い、本ソフトウェアを無制限に扱う権利 (使用、コピー、変更、統合、公開、配布、サブライセンス、および/または販売する権利を含みますが、これに限定されません) および本ソフトウェアの提供を受けた人物が同様の行為を行うことを許可する権利を無償で付与されます。

上記の著作権表示およびこの許可通知は、ソフトウェアのすべてのコピーまたは大部分に含めるものとします。

本ソフトウェアは「現状有姿」で提供され、明示的または黙示的を問わず、商品性、特定目的への適合性、非侵害性を含むがこれらに限定されない、いかなる種類の保証も付与されません。いかなる場合においても、著作者または著作権者は、契約違反、不法行為、またはその他の行為にかかわらず、本ソフトウェア、本ソフトウェアの使用、またはその他の取り扱いに起因または関連して発生するいかなる請求、損害、またはその他の責任についても責任を負わないものとします。

-
security - not tested
A
license - permissive license
-
quality - not tested

local-only server

The server can only run on the client's local machine because it depends on local resources.

Claude がモデル コンテキスト プロトコルを通じて Web ブラウザーと対話し、Web サイトのナビゲーション、要素の操作、ブラウザーの状態の管理などのアクションを実行できるようにするブラウザー自動化エージェント。

  1. 概要
    1. システム要件
      1. インストール
        1. Smithery経由でインストール
        2. 手動インストール
      2. 構成
        1. クロードデスクトップ構成
        2. ブラウザの設定
      3. 特徴
        1. 使用法
          1. 発達
            1. ログ記録
            2. プロジェクト構造
          2. 貢献
            1. ライセンス

              Related MCP Servers

              • A
                security
                A
                license
                A
                quality
                Facilitates browser automation with custom capabilities and agent-based interactions, integrated through the browser-use library.
                Last updated -
                1
                541
                Python
                MIT License
                • Apple
              • -
                security
                F
                license
                -
                quality
                A web browser automation server that allows AI assistants to control Chrome with persistent state management, enabling complex browsing tasks through asynchronous browser operations.
                Last updated -
                1
                Python
                • Apple
              • -
                security
                A
                license
                -
                quality
                AI-driven browser automation server that implements the Model Context Protocol to enable natural language control of web browsers for tasks like navigation, form filling, and visual interaction.
                Last updated -
                1
                Python
                MIT License
                • Apple
              • -
                security
                -
                license
                -
                quality
                A Model Context Protocol server that enables AI assistants to control Chrome browsers through the Chrome DevTools Protocol, allowing for navigation, clicking, typing, and extracting page information.
                Last updated -
                3
                TypeScript

              View all related MCP servers

              ID: 8c4hi61i1a