スクラップリングフェッチMCP
AI アシスタントがボット検出を実装した Web サイトのテキスト コンテンツにアクセスできるようにし、ブラウザーで表示できるものと AI がアクセスできるもののギャップを埋める MCP サーバーです。
使用目的
このツールは、ボット検出機能を実装したウェブサイトから少量のドキュメントや参考資料(テキスト/HTMLのみ)を取得するために最適化されています。汎用的なサイトスクレイピングやデータ収集を目的として設計・テストされていません。
注: このプロジェクトは、 LLM Contextを使用して、Claude Sonnet 3.7 と共同で開発されました。
Related MCP server: browser-use MCP Server
インストール
要件:
Python 3.10以上
UVパッケージマネージャー
依存関係とツールをインストールします。
クロードとのセットアップ
この構成を Claude クライアントの MCP サーバー構成に追加します。
利用可能なツール
このパッケージは、2 つの異なるツールを提供します。
s-fetch-page : ページネーションサポート付きの完全なWebページを取得します
s-fetch-pattern : 正規表現パターンと周囲のコンテキストに一致するコンテンツを抽出します。
使用例
完全なページを取得する
パターンマッチングによる特定のコンテンツの抽出
機能オプション
保護レベル:
basic: 高速な取得(1~2秒)ですが、厳重に保護されたサイトでは成功率が低くなります。stealth:ほとんどのサイトで機能するバランスの取れた保護(3〜8秒)max-stealth: 厳重に保護されたサイトに対する最大限の保護(10秒以上)
コンテンツターゲティングオプション:
s-fetch-page : ページ区切りのサポートを使用してページ全体を取得します(
start_indexとmax_lengthを使用)s-fetch-pattern : 正規表現を使用して特定のコンテンツを抽出します(
search_patternとcontext_charsを使用)結果には
s-fetch-pageを使用したフォローアップクエリの位置情報が含まれます。
最良の結果を得るためのヒント
basicモードから開始し、必要に応じてより高い保護レベルにエスカレートします。大きな文書の場合は、
s-fetch-pageでページ区切りパラメータを使用します。大きなページで特定の情報を探すときは
s-fetch-patternを使用します。AIはサイトの保護レベルに応じて自動的にアプローチを調整します。
制限事項
テキストコンテンツ専用に設計:特にドキュメント、記事、参考資料向け
大量のスクレイピングやデータ収集には適していません
認証が必要なサイトでは動作しない場合があります
パフォーマンスはサイトの複雑さによって異なります
ライセンス
アパッチ2