Scrapling Fetch MCP

by cyberchitta
Verified

remote-capable server

The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.

Integrations

  • Enables installation of the MCP server through PyPI's package repository, with version tracking and dependency management.

スクラップリングフェッチMCP

AI アシスタントがボット検出を実装した Web サイトのテキスト コンテンツにアクセスできるようにし、ブラウザーで表示できるものと AI がアクセスできるもののギャップを埋める MCP サーバーです。

使用目的

このツールは、ボット検出機能を実装したウェブサイトから少量のドキュメントや参考資料(テキスト/HTMLのみ)を取得するために最適化されています。汎用的なサイトスクレイピングやデータ収集を目的として設計・テストされていません。

: このプロジェクトは、 LLM Contextを使用して、Claude Sonnet 3.7 と共同で開発されました。

インストール

  1. 要件:
    • Python 3.10以上
    • UVパッケージマネージャー
  2. 依存関係とツールをインストールします。
uv tool install scrapling scrapling install uv tool install scrapling-fetch-mcp

クロードとのセットアップ

この構成を Claude クライアントの MCP サーバー構成に追加します。

{ "mcpServers": { "Cyber-Chitta": { "command": "uvx", "args": ["scrapling-fetch-mcp"] } } }

利用可能なツール

このパッケージは、2 つの異なるツールを提供します。

  1. s-fetch-page : ページネーションサポート付きの完全なWebページを取得します
  2. s-fetch-pattern : 正規表現パターンと周囲のコンテキストに一致するコンテンツを抽出します。

使用例

完全なページを取得する

Human: Please fetch and summarize the documentation at https://example.com/docs Claude: I'll help you with that. Let me fetch the documentation. <mcp:function_calls> <mcp:invoke name="s-fetch-page"> <mcp:parameter name="url">https://example.com/docs</mcp:parameter> <mcp:parameter name="mode">basic</mcp:parameter> </mcp:invoke> </mcp:function_calls> Based on the documentation I retrieved, here's a summary...

パターンマッチングによる特定のコンテンツの抽出

Human: Please find all mentions of "API keys" on the documentation page. Claude: I'll search for that specific information. <mcp:function_calls> <mcp:invoke name="s-fetch-pattern"> <mcp:parameter name="url">https://example.com/docs</mcp:parameter> <mcp:parameter name="mode">basic</mcp:parameter> <mcp:parameter name="search_pattern">API\s+keys?</mcp:parameter> <mcp:parameter name="context_chars">150</mcp:parameter> </mcp:invoke> </mcp:function_calls> I found several mentions of API keys in the documentation: ...

機能オプション

  • 保護レベル:
    • basic : 高速な取得(1~2秒)ですが、厳重に保護されたサイトでは成功率が低くなります。
    • stealth :ほとんどのサイトで機能するバランスの取れた保護(3〜8秒)
    • max-stealth : 厳重に保護されたサイトに対する最大限の保護(10秒以上)
  • コンテンツターゲティングオプション:
    • s-fetch-page : ページ区切りのサポートを使用してページ全体を取得します( start_indexmax_lengthを使用)
    • s-fetch-pattern : 正規表現を使用して特定のコンテンツを抽出します( search_patterncontext_charsを使用)
      • 結果にはs-fetch-pageを使用したフォローアップクエリの位置情報が含まれます。

最良の結果を得るためのヒント

  • basicモードから開始し、必要に応じてより高い保護レベルにエスカレートします。
  • 大きな文書の場合は、 s-fetch-pageでページ区切りパラメータを使用します。
  • 大きなページで特定の情報を探すときはs-fetch-patternを使用します。
  • AIはサイトの保護レベルに応じて自動的にアプローチを調整します。

制限事項

  • テキストコンテンツ専用に設計:特にドキュメント、記事、参考資料向け
  • 大量のスクレイピングやデータ収集には適していません
  • 認証が必要なサイトでは動作しない場合があります
  • パフォーマンスはサイトの複雑さによって異なります

ライセンス

アパッチ2

-
security - not tested
A
license - permissive license
-
quality - not tested

AI アシスタントがボット検出を実装した Web サイトのテキスト コンテンツにアクセスできるようにし、ブラウザーで表示できるものと AI がアクセスできるもののギャップを埋める MCP サーバーです。

  1. Intended Use
    1. Installation
      1. Setup with Claude
        1. Available Tools
          1. Example Usage
            1. Fetching a Complete Page
            2. Extracting Specific Content with Pattern Matching
          2. Functionality Options
            1. Tips for Best Results
              1. Limitations
                1. License
                  ID: jgm6w7mkc8