Skip to main content
Glama

mcp-server-webcrawl

by pragmar

mcp-server-webcrawl

モデルコンテキストプロトコル(MCP)を使用して、WebクロールとAI言語モデル間のギャップを埋めます。mcp -server-webcrawlを使用すると、AIクライアントはユーザーの指示に従って、または自律的にWebコンテンツをフィルタリングおよび分析します。サーバーには、ブール値をサポートする全文検索インターフェース、タイプによるリソースフィルタリング、HTTPステータスなど、さまざまな機能が搭載されています。

mcp-server-webcrawl は、 LLM に Web コンテンツを検索するための完全なメニューを提供し、さまざまな Web クローラーと連携します。

mcp-server-webcrawlは無料のオープンソースで、Claude DesktopとPython(3.10以上)が必要です。コマンドラインからpip installでインストールできます。

pip install mcp-server-webcrawl

特徴

  • クロードデスクトップ対応
  • 全文検索サポート
  • タイプ、ステータスなどでフィルタリング
  • マルチクローラー対応
  • 高度な検索/ブール検索およびフィールド検索をサポート

MCP構成

Claude Desktopメニューから、「ファイル」>「設定」>「開発者」に移動します。「設定の編集」をクリックして設定ファイルを見つけ、任意のエディタで開き、サンプルを修正してdatasrcパスを反映します。

必要に応じて、mcpServers の下にさらに mcp-server-webcrawl 接続を設定できます。

{ "mcpServers": { "webcrawl": { "command": [varies by OS/env, see below], "args": [varies by crawler, see below] } } }

詳細なセットアップ手順については、セットアップ ガイドを参照してください。

WindowsとmacOS

Windows: コマンドを「mcp-server-webcrawl」に設定

macOS: コマンドは絶対パスに設定されています。つまり、$ which mcp-server-webcrawl の値です。

例えば:

"command": "/Users/yourusername/.local/bin/mcp-server-webcrawl",

システム上のmcp-server-webcrawl実行可能ファイルの絶対パスを見つけるには:

  1. ターミナルを開く
  2. which mcp-server-webcrawlを実行する
  3. 返されたフルパスをコピーして設定ファイルで使用します

wget (--mirror を使用)

datasrc 引数はミラーの親ディレクトリに設定する必要があります。

"args": ["--crawler", "wget", "--datasrc", "/path/to/wget/archives/"]

WARC

datasrc 引数は、WARC ファイルの親ディレクトリに設定する必要があります。

"args": ["--crawler", "warc", "--datasrc", "/path/to/warc/archives/"]

インタロボット

datasrc 引数は、データベースへの直接パスに設定する必要があります。

"args": ["--crawler", "interrobot", "--datasrc", "/path/to/Documents/InterroBot/interrobot.v2.db"]

datasrc 引数にはルートホストのディレクトリを設定する必要があります。Katana はページとメディアをホストごとに分離します。./archives/example.com/example.com が想定されており、適切です。より複雑なサイトでは、クロールデータがオリジンホストのディレクトリまで拡張されます。

"args": ["--crawler", "katana", "--datasrc", "/path/to/katana/archives/"]

SiteOne (オフライン Web サイトの生成を使用)

datasrc 引数はアーカイブの親ディレクトリに設定する必要があり、アーカイブが有効になっている必要があります。

"args": ["--crawler", "siteone", "--datasrc", "/path/to/SiteOne/archives/"]

ブール検索構文

クエリエンジンは、フィールド指定( field: value )による検索と複雑なブール式をサポートしています。フルテキストは、URL、コンテンツ、ヘッダーフィールドの組み合わせとしてサポートされます。

APIインターフェースはLLMが直接使用するように設計されていますが、検索構文に慣れておくと役立ちます。LLMによって生成された検索クエリは確認可能ですが、通常はUIでは折りたたまれています。クエリを確認する必要がある場合は、MCPの折りたたみ可能な部分を展開してください。

クエリの例

クエリの例説明
プライバシー全文単一キーワード一致
"プライバシーポリシー"全文一致の完全フレーズ
境界*全文ワイルドカードは、 boundar (boundary, boundary) で始まる結果と一致します。
id: 12345idフィールドはIDによって特定のリソースと一致します
URL: example.com/*url フィールドは、example.com/ を含む URL の結果と一致します。
タイプ: htmlタイプフィールドはHTMLページのみに一致します
ステータス: 200ステータス フィールドは特定の HTTP ステータス コードと一致します (200 に等しい)
ステータス: >=400ステータス フィールドが特定の HTTP ステータス コード (400 以上) に一致する
コンテンツ: h1コンテンツ フィールドはコンテンツと一致します (HTTP 応答本文、多くの場合 HTML ですが、常にそうとは限りません)
ヘッダー: text/xmlヘッダーフィールドはHTTPレスポンスヘッダーと一致する
プライバシーとポリシー全文は両方に一致します
プライバシーまたはポリシー全文は次のいずれかに一致します
ポリシーはプライバシーではない全文はプライバシーを含まないポリシーに一致します
(ログインまたはサインイン) AND フォームfulltext は fulltext ログインまたはフォームによるサインインに一致します
タイプ: html AND ステータス: 200全文はHTTPが成功したHTMLページのみに一致します

フィールド検索定義

フィールド検索は検索精度を高め、検索インデックスのどの列をフィルタリングするかを指定できます。コンテンツ全体を検索するのではなく、URL、ヘッダー、コンテンツ本文などの特定の属性にクエリを絞り込むことができます。このアプローチにより、クロールデータ内の特定の属性やパターンを検索する際の効率が向上します。

分野説明
idデータベースID
URLリソースURL
タイプ型の列挙リスト(型表を参照)
状態HTTPレスポンスコード
ヘッダーHTTPレスポンスヘッダー
コンテンツHTTP ボディ - HTML、CSS、JS など

コンテンツタイプ

クロールtype:フィールド検索では、幅広いコンテンツタイプグループによるフィルタリングが可能で、複雑な拡張子クエリなしで画像をフィルタリングする場合に特に便利です。例えば、「login」を含まないページを検索するにはtype: html NOT content: loginと検索し、 type: imgと検索して画像リソースを分析できます。以下の表は、検索システムでサポートされているすべてのコンテンツタイプを示しています。

タイプ説明
htmlウェブページ
インラインフレームiframe
画像ウェブ画像
オーディオウェブオーディオファイル
ビデオウェブビデオファイル
フォントウェブフォントファイル
スタイルCSSスタイルシート
スクリプトJavaScriptファイル
RSSフィードRSSシンジケーションフィード
文章プレーンテキストコンテンツ
pdfPDFファイル
ドキュメントMS Word文書
他の未分類
-
security - not tested
F
license - not found
-
quality - not tested

local-only server

The server can only run on the client's local machine because it depends on local resources.

ウェブクロールとAI言語モデル間のギャップを埋めます。mcp-server-webcrawlを使用すると、AIクライアントがユーザーの指示に従って、または自律的にウェブコンテンツをフィルタリング・分析し、ウェブコンテンツから洞察を抽出します。

WARC、wget、InterroBot、Katana、および SiteOne クローラーをサポートします。

  1. 特徴
    1. MCP構成
      1. WindowsとmacOS
      2. wget (--mirror を使用)
      3. WARC
      4. インタロボット
      5. SiteOne (オフライン Web サイトの生成を使用)
    2. ブール検索構文
      1. フィールド検索定義
        1. コンテンツタイプ

          Related MCP Servers

          • -
            security
            A
            license
            -
            quality
            Crawl4AI MCP Server is an intelligent information retrieval server offering robust search capabilities and LLM-optimized web content understanding, utilizing multi-engine search and intelligent content extraction to efficiently gather and comprehend internet information.
            Last updated -
            81
            Python
            MIT License
            • Apple
            • Linux
          • -
            security
            A
            license
            -
            quality
            An MCP server that helps AI assistants access text content from websites that implement bot detection, bridging the gap between what you can see in your browser and what the AI can access.
            Last updated -
            1
            Python
            Apache 2.0
          • -
            security
            F
            license
            -
            quality
            An MCP server that crawls API documentation websites and exposes their content to AI models, enabling them to search, browse, and reference API specifications.
            Last updated -
            Python
          • -
            security
            -
            license
            -
            quality
            An MCP server that enhances Brave Search results by using Puppeteer to extract full webpage content and explore linked pages, enabling AI assistants to perform comprehensive web research with configurable depth.
            Last updated -
            1
            TypeScript

          View all related MCP servers

          MCP directory API

          We provide all the information about MCP servers via our MCP API.

          curl -X GET 'https://glama.ai/api/mcp/v1/servers/pragmar/mcp_server_webcrawl'

          If you have feedback or need assistance with the MCP directory API, please join our Discord server