Skip to main content
Glama

Scrapling Fetch MCP

by cyberchitta

スクラップリングフェッチMCP

AI アシスタントがボット検出を実装した Web サイトのテキスト コンテンツにアクセスできるようにし、ブラウザーで表示できるものと AI がアクセスできるもののギャップを埋める MCP サーバーです。

使用目的

このツールは、ボット検出機能を実装したウェブサイトから少量のドキュメントや参考資料(テキスト/HTMLのみ)を取得するために最適化されています。汎用的なサイトスクレイピングやデータ収集を目的として設計・テストされていません。

: このプロジェクトは、 LLM Contextを使用して、Claude Sonnet 3.7 と共同で開発されました。

インストール

  1. 要件:
    • Python 3.10以上
    • UVパッケージマネージャー
  2. 依存関係とツールをインストールします。
uv tool install scrapling scrapling install uv tool install scrapling-fetch-mcp

クロードとのセットアップ

この構成を Claude クライアントの MCP サーバー構成に追加します。

{ "mcpServers": { "Cyber-Chitta": { "command": "uvx", "args": ["scrapling-fetch-mcp"] } } }

利用可能なツール

このパッケージは、2 つの異なるツールを提供します。

  1. s-fetch-page : ページネーションサポート付きの完全なWebページを取得します
  2. s-fetch-pattern : 正規表現パターンと周囲のコンテキストに一致するコンテンツを抽出します。

使用例

完全なページを取得する

Human: Please fetch and summarize the documentation at https://example.com/docs Claude: I'll help you with that. Let me fetch the documentation. <mcp:function_calls> <mcp:invoke name="s-fetch-page"> <mcp:parameter name="url">https://example.com/docs</mcp:parameter> <mcp:parameter name="mode">basic</mcp:parameter> </mcp:invoke> </mcp:function_calls> Based on the documentation I retrieved, here's a summary...

パターンマッチングによる特定のコンテンツの抽出

Human: Please find all mentions of "API keys" on the documentation page. Claude: I'll search for that specific information. <mcp:function_calls> <mcp:invoke name="s-fetch-pattern"> <mcp:parameter name="url">https://example.com/docs</mcp:parameter> <mcp:parameter name="mode">basic</mcp:parameter> <mcp:parameter name="search_pattern">API\s+keys?</mcp:parameter> <mcp:parameter name="context_chars">150</mcp:parameter> </mcp:invoke> </mcp:function_calls> I found several mentions of API keys in the documentation: ...

機能オプション

  • 保護レベル:
    • basic : 高速な取得(1~2秒)ですが、厳重に保護されたサイトでは成功率が低くなります。
    • stealth :ほとんどのサイトで機能するバランスの取れた保護(3〜8秒)
    • max-stealth : 厳重に保護されたサイトに対する最大限の保護(10秒以上)
  • コンテンツターゲティングオプション:
    • s-fetch-page : ページ区切りのサポートを使用してページ全体を取得します( start_indexmax_lengthを使用)
    • s-fetch-pattern : 正規表現を使用して特定のコンテンツを抽出します( search_patterncontext_charsを使用)
      • 結果にはs-fetch-pageを使用したフォローアップクエリの位置情報が含まれます。

最良の結果を得るためのヒント

  • basicモードから開始し、必要に応じてより高い保護レベルにエスカレートします。
  • 大きな文書の場合は、 s-fetch-pageでページ区切りパラメータを使用します。
  • 大きなページで特定の情報を探すときはs-fetch-patternを使用します。
  • AIはサイトの保護レベルに応じて自動的にアプローチを調整します。

制限事項

  • テキストコンテンツ専用に設計:特にドキュメント、記事、参考資料向け
  • 大量のスクレイピングやデータ収集には適していません
  • 認証が必要なサイトでは動作しない場合があります
  • パフォーマンスはサイトの複雑さによって異なります

ライセンス

アパッチ2

-
security - not tested
A
license - permissive license
-
quality - not tested

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

AI アシスタントがボット検出を実装した Web サイトのテキスト コンテンツにアクセスできるようにし、ブラウザーで表示できるものと AI がアクセスできるもののギャップを埋める MCP サーバーです。

  1. 使用目的
    1. インストール
      1. クロードとのセットアップ
        1. 利用可能なツール
          1. 使用例
            1. 完全なページを取得する
            2. パターンマッチングによる特定のコンテンツの抽出
          2. 機能オプション
            1. 最良の結果を得るためのヒント
              1. 制限事項
                1. ライセンス

                  Related MCP Servers

                  • A
                    security
                    A
                    license
                    A
                    quality
                    A headless browser MCP server that allows AI agents to fetch web content and perform Google searches without API keys, supporting various output formats like Markdown, JSON, HTML, and text.
                    Last updated -
                    2
                    4
                    TypeScript
                    MIT License
                  • -
                    security
                    F
                    license
                    -
                    quality
                    A specialized MCP server that enables AI agents to interact with Reddit, including reading posts, creating content, and managing subreddit configurations.
                    Last updated -
                    31
                    5
                    JavaScript
                  • -
                    security
                    F
                    license
                    -
                    quality
                    An MCP server that connects AI assistants to SearchAgora, enabling users to search for, discover, and purchase products across the web through natural language conversations.
                    Last updated -
                    1
                    Python
                    • Apple
                  • -
                    security
                    A
                    license
                    -
                    quality
                    An MCP server that enables AI assistants to control a web browser through natural language commands, allowing them to navigate websites and extract information via SSE transport.
                    Last updated -
                    505
                    Python
                    MIT License
                    • Apple

                  View all related MCP servers

                  MCP directory API

                  We provide all the information about MCP servers via our MCP API.

                  curl -X GET 'https://glama.ai/api/mcp/v1/servers/cyberchitta/scrapling-fetch-mcp'

                  If you have feedback or need assistance with the MCP directory API, please join our Discord server