🤖 ブラウザ自動化エージェント
MCP(モデル制御プログラム)をベースに構築された強力なブラウザ自動化ツール。ウェブスクレイピング機能とLLMベースのインテリジェンスを組み合わせます。このエージェントは、Google検索、ウェブページへのナビゲーション、GitHub、Stack Overflow、ドキュメントサイトなど、様々なウェブサイトからコンテンツをインテリジェントにスクレイピングできます。
🚀 機能
- 🔍 Google 検索統合: あらゆるクエリに対する上位の検索結果を検索して取得します
- 🕸️ インテリジェントな Web スクレイピング: さまざまな Web サイトの種類に合わせたスクレイピング戦略:
- 📂 GitHubリポジトリ
- 💬 Stack Overflow の質問と回答
- 📚 ドキュメントページ
- 🌐 一般的なウェブサイト
- 🧠 AIを活用した処理:スクレイピングしたコンテンツの理解と処理にMistral AIを使用
- 🥷 ステルスモード: ブラウザの指紋保護を実装し、検出を回避します
- 💾 コンテンツ保存: スクレイピングしたページのスクリーンショットとテキストコンテンツの両方を自動的に保存します
🏗️ 建築
このプロジェクトでは、MCP を利用したクライアント サーバー アーキテクチャを使用します。
- 🖥️ サーバー: ブラウザの自動化とWebスクレイピングタスクを処理します
- 👤 クライアント: Mistral AI と LangGraph を使用して AI インターフェースを提供します
- 📡 通信: クライアント・サーバー通信にstdioを使用する
⚙️ 要件
- 🐍 Python 3.8 以上
- 🎭 劇作家
- 🧩 MCP(モデル制御プログラム)
- 🔑 ミストラル AI API キー
📥 インストール
- リポジトリをクローンします。
- 依存関係をインストールします:
- Playwright ブラウザをインストールします。
- プロジェクト ルートに
.env
ファイルを作成し、Mistral AI API キーを追加します。
📋 使用方法
サーバーの実行
クライアントの実行
サンプルインタラクション
サーバーとクライアントの両方が実行されたら:
- プロンプトが表示されたらクエリを入力してください
- エージェントは次のことを行います。
- 🔍 Googleで関連する結果を検索する
- 🧭 上位の結果へ移動
- 📊 ウェブサイトの種類に基づいてコンテンツをスクレイピングする
- 📸 スクリーンショットとコンテンツをファイルに保存する
- 📤 処理済みの情報を返す
🛠️ ツールの機能
get_top_google_url
🔍 Google で検索し、指定されたクエリの上位の結果 URL を返します。
browse_and_scrape
🌐 URL に移動し、Web サイトの種類に基づいてコンテンツをスクレイピングします。
scrape_github
📂 GitHub リポジトリから README コンテンツとコード ブロックを抽出することに特化しています。
scrape_stackoverflow
💬 Stack Overflow ページから質問、回答、コメント、コード ブロックを抽出します。
scrape_documentation
📚 ドキュメントコンテンツとコード例の抽出に最適化されています。
scrape_generic
🌐 一般的な Web サイトから段落テキストとコード ブロックを抽出します。
📁 ファイル構造
📤 出力ファイル
エージェントは、タイムスタンプ付きの 2 種類の出力ファイルを生成します。
- 📸
final_page_YYYYMMDD_HHMMSS.png
: 最終ページ状態のスクリーンショット - 📄
scraped_content_YYYYMMDD_HHMMSS.txt
: ページから抽出したテキストコンテンツ
⚙️ カスタマイズ
コード内の次のパラメータを変更できます。
- 🖥️ ブラウザウィンドウのサイズ:
browse_and_scrape
でwidth
とheight
調整します - 👻 ヘッドレスモード: ブラウザ操作を非表示にするには
headless=True
を設定します - 🔢 Google検索結果の数:
get_top_google_url
のnum_results
を変更する
❓ トラブルシューティング
- 🔌 接続の問題: サーバーとクライアントが別々のターミナルで実行されていることを確認してください
- 🎭 Playwright エラー: ブラウザに
playwright install
されていることを確認してください - 🔑 APIキーエラー: Mistral APIキーが
.env
ファイルに正しく設定されていることを確認してください - 🛣️ パスエラー: 必要に応じて
client.py
内のmain.py
へのパスを更新してください
📜 ライセンス
🤝 貢献する
貢献を歓迎します!お気軽にプルリクエストを送信してください。
🧩 MCP、🎭 Playwright、🧠 Mistral AI で構築
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
Google を検索したり、Web ページに移動したり、GitHub、Stack Overflow、ドキュメント サイトなどのさまざまな Web サイトからコンテンツを抽出したりできるブラウザ自動化ツールを通じて、インテリジェントな Web スクレイピングを可能にします。
Related MCP Servers
- AsecurityAlicenseAqualityEnables web content scanning and analysis by fetching, analyzing, and extracting information from web pages using tools like page fetching, link extraction, site crawling, and more.Last updated -67TypeScriptMIT License
- AsecurityFlicenseAqualityEnables browser automation using Python scripts, offering operations like taking webpage screenshots, retrieving HTML content, and executing JavaScript.Last updated -418Python
- AsecurityAlicenseAqualityA server that provides web scraping and intelligent content searching capabilities using the Firecrawl API, enabling AI agents to extract structured data from websites and perform content searches.Last updated -52TypeScriptMIT License
- AsecurityFlicenseAqualityA server that provides tools to scrape websites and extract structured data from them using Firecrawl's APIs, supporting both basic website scraping in multiple formats and custom schema-based data extraction.Last updated -2JavaScript