スクラップリングフェッチMCP
AI アシスタントがボット検出を実装した Web サイトのテキスト コンテンツにアクセスできるようにし、ブラウザーで表示できるものと AI がアクセスできるもののギャップを埋める MCP サーバーです。
使用目的
このツールは、ボット検出機能を実装したウェブサイトから少量のドキュメントや参考資料(テキスト/HTMLのみ)を取得するために最適化されています。汎用的なサイトスクレイピングやデータ収集を目的として設計・テストされていません。
注: このプロジェクトは、 LLM Contextを使用して、Claude Sonnet 3.7 と共同で開発されました。
インストール
- 要件:
- Python 3.10以上
- UVパッケージマネージャー
- 依存関係とツールをインストールします。
クロードとのセットアップ
この構成を Claude クライアントの MCP サーバー構成に追加します。
利用可能なツール
このパッケージは、2 つの異なるツールを提供します。
- s-fetch-page : ページネーションサポート付きの完全なWebページを取得します
- s-fetch-pattern : 正規表現パターンと周囲のコンテキストに一致するコンテンツを抽出します。
使用例
完全なページを取得する
パターンマッチングによる特定のコンテンツの抽出
機能オプション
- 保護レベル:
basic
: 高速な取得(1~2秒)ですが、厳重に保護されたサイトでは成功率が低くなります。stealth
:ほとんどのサイトで機能するバランスの取れた保護(3〜8秒)max-stealth
: 厳重に保護されたサイトに対する最大限の保護(10秒以上)
- コンテンツターゲティングオプション:
- s-fetch-page : ページ区切りのサポートを使用してページ全体を取得します(
start_index
とmax_length
を使用) - s-fetch-pattern : 正規表現を使用して特定のコンテンツを抽出します(
search_pattern
とcontext_chars
を使用)- 結果には
s-fetch-page
を使用したフォローアップクエリの位置情報が含まれます。
- 結果には
- s-fetch-page : ページ区切りのサポートを使用してページ全体を取得します(
最良の結果を得るためのヒント
basic
モードから開始し、必要に応じてより高い保護レベルにエスカレートします。- 大きな文書の場合は、
s-fetch-page
でページ区切りパラメータを使用します。 - 大きなページで特定の情報を探すときは
s-fetch-pattern
を使用します。 - AIはサイトの保護レベルに応じて自動的にアプローチを調整します。
制限事項
- テキストコンテンツ専用に設計:特にドキュメント、記事、参考資料向け
- 大量のスクレイピングやデータ収集には適していません
- 認証が必要なサイトでは動作しない場合があります
- パフォーマンスはサイトの複雑さによって異なります
ライセンス
アパッチ2
This server cannot be installed
hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
AI アシスタントがボット検出を実装した Web サイトのテキスト コンテンツにアクセスできるようにし、ブラウザーで表示できるものと AI がアクセスできるもののギャップを埋める MCP サーバーです。
Related MCP Servers
- AsecurityAlicenseAqualityA headless browser MCP server that allows AI agents to fetch web content and perform Google searches without API keys, supporting various output formats like Markdown, JSON, HTML, and text.Last updated -24TypeScriptMIT License
- -securityFlicense-qualityA specialized MCP server that enables AI agents to interact with Reddit, including reading posts, creating content, and managing subreddit configurations.Last updated -315JavaScript
- -securityFlicense-qualityAn MCP server that connects AI assistants to SearchAgora, enabling users to search for, discover, and purchase products across the web through natural language conversations.Last updated -1Python
- -securityAlicense-qualityAn MCP server that enables AI assistants to control a web browser through natural language commands, allowing them to navigate websites and extract information via SSE transport.Last updated -505PythonMIT License