フェッチャーMCP
Playwright ヘッドレス ブラウザを使用して Web ページ コンテンツを取得するための MCP サーバー。
利点
JavaScript サポート: 従来の Web スクレーパーとは異なり、Fetcher MCP は Playwright を使用して JavaScript を実行するため、動的な Web コンテンツや最新の Web アプリケーションを処理できます。
インテリジェントなコンテンツ抽出: 組み込みの読みやすさアルゴリズムにより、Web ページから主要なコンテンツが自動的に抽出され、広告、ナビゲーション、その他の不要な要素が削除されます。
柔軟な出力形式: HTML と Markdown の両方の出力形式をサポートしているため、さまざまな下流アプリケーションと簡単に統合できます。
並列処理:
fetch_urlsツールを使用すると、複数の URL を同時に取得できるため、バッチ操作の効率が大幅に向上します。リソースの最適化: 不要なリソース (画像、スタイルシート、フォント、メディア) を自動的にブロックして、帯域幅の使用量を削減し、パフォーマンスを向上させます。
堅牢なエラー処理: 包括的なエラー処理とログ記録により、問題のある Web ページを処理する場合でも信頼性の高い操作が保証されます。
構成可能なパラメータ: さまざまなユースケースに合わせて、タイムアウト、コンテンツの抽出、出力フォーマットを細かく制御します。
クイックスタート
npx で直接実行します:
初回セットアップ - ターミナルで次のコマンドを実行して、必要なブラウザをインストールします。
デバッグモード
--debugオプションをつけて実行すると、デバッグ用のブラウザ ウィンドウが表示されます。
構成MCP
Claude Desktop でこの MCP サーバーを構成します。
MacOSの場合: ~/Library/Application Support/Claude/claude_desktop_config.json
Windows の場合: %APPDATA%/Claude/claude_desktop_config.json
特徴
fetch_url- 指定された URL から Web ページのコンテンツを取得しますPlaywrightヘッドレスブラウザを使用してJavaScriptを解析します
メインコンテンツのインテリジェントな抽出とMarkdownへの変換をサポート
次のパラメータをサポートします:
url: 取得するウェブページのURL(必須パラメータ)timeout: ページ読み込みのタイムアウト(ミリ秒単位)。デフォルトは 30000(30 秒)waitUntil: ナビゲーションが完了したとみなすタイミングを指定します。オプション: 'load'、'domcontentloaded'、'networkidle'、'commit'、デフォルトは 'load'extractContent: メインコンテンツをインテリジェントに抽出するかどうか。デフォルトは truemaxLength: 返されるコンテンツの最大長(文字数)。デフォルトでは制限なしreturnHtml: Markdownの代わりにHTMLコンテンツを返すかどうか。デフォルトはfalsewaitForNavigation: 最初のページ読み込み後に追加のナビゲーションを待機するかどうか(アンチボット検証のあるサイトで便利)、デフォルトは falsenavigationTimeout: 追加のナビゲーションを待機する最大時間(ミリ秒単位)。デフォルトは 10000(10 秒)です。disableMedia: メディアリソース(画像、スタイルシート、フォント、メディア)を無効にするかどうか。デフォルトは truedebug: デバッグモードを有効にするかどうか(ブラウザウィンドウを表示する)。指定されている場合、--debug コマンドラインフラグを上書きします。
fetch_urls- 複数の URL から Web ページのコンテンツを並列に一括取得しますマルチタブ並列フェッチを使用してパフォーマンスを向上
ウェブページ間の明確な区別とともに統合された結果を返します
次のパラメータをサポートします:
urls: 取得するURLの配列(必須パラメータ)その他のパラメータは
fetch_urlと同じです
ヒント
特殊なウェブサイトシナリオの取り扱い
アンチクローラー機構への対処
読み込みが完了するまで待機: CAPTCHA、リダイレクト、またはその他の検証メカニズムを使用する Web サイトの場合は、プロンプトに次の内容を含めます。
Please wait for the page to fully loadこれには
waitForNavigation: trueパラメータが使用されます。タイムアウト期間を延長する: 読み込みが遅いウェブサイトの場合:
Please set the page loading timeout to 60 secondsこれにより、
timeoutとnavigationTimeout両方のパラメータがそれに応じて調整されます。
コンテンツ取得調整
元の HTML 構造を保持: コンテンツの抽出が失敗する可能性がある場合:
Please preserve the original HTML contentextractContent: falseおよびreturnHtml: true設定します。完全なページコンテンツを取得: 抽出されたコンテンツが制限されすぎている場合:
Please fetch the complete webpage content instead of just the main contentextractContent: falseを設定します。コンテンツを HTML として返す: デフォルトの Markdown ではなく HTML 形式が必要な場合:
Please return the content in HTML formatreturnHtml: trueを設定します。
デバッグと認証
デバッグモードを有効にする
動的デバッグのアクティブ化: 特定のフェッチ操作中にブラウザ ウィンドウを表示するには:
Please enable debug mode for this fetch operationこれにより、サーバーが
--debugフラグなしで起動された場合でもdebug: trueが設定されます。
認証にカスタムCookieを使用する
手動ログイン: 自分の資格情報を使用してログインするには:
Please run in debug mode so I can manually log in to the websitedebug: trueを設定するか、--debugフラグを使用して、手動ログイン用にブラウザ ウィンドウを開いたままにします。デバッグブラウザとの対話: デバッグモードが有効な場合:
ブラウザウィンドウは開いたままです
資格情報を使用して手動でウェブサイトにログインできます
ログインが完了すると、認証されたセッションでコンテンツが取得されます
特定のリクエストに対してデバッグを有効にする: サーバーがすでに実行されている場合でも、特定のリクエストに対してデバッグ モードを有効にすることができます。
Please enable debug mode for this authentication stepこの特定のリクエストに対してのみ
debug: trueを設定し、手動ログイン用のブラウザ ウィンドウを開きます。
発達
依存関係をインストールする
Playwrightブラウザをインストールする
Playwright に必要なブラウザをインストールします。
サーバーを構築する
デバッグ
デバッグには MCP Inspector を使用します。
デバッグ用にブラウザ表示モードを有効にすることもできます。
関連プロジェクト
g-search-mcp : 複数のキーワードを同時に並列検索できる、Google検索用の強力なMCPサーバーです。バッチ検索やデータ収集に最適です。
ライセンス
MITライセンスに基づいてライセンスされています
Related MCP Servers
- Asecurity-licenseAqualityA powerful MCP server for fetching and transforming web content into various formats (HTML, JSON, Markdown, Plain Text) with ease.Last updated -41,01737MIT License
 - Asecurity-licenseAqualityAn MCP server for fetching and transforming web content into various formats.Last updated -47MIT License
 - Asecurity-licenseAqualityA MCP server that provides browser automation tools, allowing users to navigate websites, take screenshots, click elements, fill forms, and execute JavaScript through Playwright.Last updated -81Apache 2.0
 - Asecurity-licenseAqualityAn MCP server that extracts meaningful content from websites and converts HTML to high-quality Markdown, using Mozilla's Readability engine.Last updated -16,0557