remote-capable server
The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.
Integrations
Enables installation of the MCP server through PyPI's package repository, with version tracking and dependency management.
スクラップリングフェッチMCP
AI アシスタントがボット検出を実装した Web サイトのテキスト コンテンツにアクセスできるようにし、ブラウザーで表示できるものと AI がアクセスできるもののギャップを埋める MCP サーバーです。
使用目的
このツールは、ボット検出機能を実装したウェブサイトから少量のドキュメントや参考資料(テキスト/HTMLのみ)を取得するために最適化されています。汎用的なサイトスクレイピングやデータ収集を目的として設計・テストされていません。
注: このプロジェクトは、 LLM Contextを使用して、Claude Sonnet 3.7 と共同で開発されました。
インストール
- 要件:
- Python 3.10以上
- UVパッケージマネージャー
- 依存関係とツールをインストールします。
クロードとのセットアップ
この構成を Claude クライアントの MCP サーバー構成に追加します。
利用可能なツール
このパッケージは、2 つの異なるツールを提供します。
- s-fetch-page : ページネーションサポート付きの完全なWebページを取得します
- s-fetch-pattern : 正規表現パターンと周囲のコンテキストに一致するコンテンツを抽出します。
使用例
完全なページを取得する
パターンマッチングによる特定のコンテンツの抽出
機能オプション
- 保護レベル:
basic
: 高速な取得(1~2秒)ですが、厳重に保護されたサイトでは成功率が低くなります。stealth
:ほとんどのサイトで機能するバランスの取れた保護(3〜8秒)max-stealth
: 厳重に保護されたサイトに対する最大限の保護(10秒以上)
- コンテンツターゲティングオプション:
- s-fetch-page : ページ区切りのサポートを使用してページ全体を取得します(
start_index
とmax_length
を使用) - s-fetch-pattern : 正規表現を使用して特定のコンテンツを抽出します(
search_pattern
とcontext_chars
を使用)- 結果には
s-fetch-page
を使用したフォローアップクエリの位置情報が含まれます。
- 結果には
- s-fetch-page : ページ区切りのサポートを使用してページ全体を取得します(
最良の結果を得るためのヒント
basic
モードから開始し、必要に応じてより高い保護レベルにエスカレートします。- 大きな文書の場合は、
s-fetch-page
でページ区切りパラメータを使用します。 - 大きなページで特定の情報を探すときは
s-fetch-pattern
を使用します。 - AIはサイトの保護レベルに応じて自動的にアプローチを調整します。
制限事項
- テキストコンテンツ専用に設計:特にドキュメント、記事、参考資料向け
- 大量のスクレイピングやデータ収集には適していません
- 認証が必要なサイトでは動作しない場合があります
- パフォーマンスはサイトの複雑さによって異なります
ライセンス
アパッチ2
This server cannot be installed
AI アシスタントがボット検出を実装した Web サイトのテキスト コンテンツにアクセスできるようにし、ブラウザーで表示できるものと AI がアクセスできるもののギャップを埋める MCP サーバーです。