Skip to main content
Glama

mcp-server-webcrawl

モデルコンテキストプロトコル(MCP)を使用して、WebクロールとAI言語モデル間のギャップを埋めます。mcp -server-webcrawlを使用すると、AIクライアントはユーザーの指示に従って、または自律的にWebコンテンツをフィルタリングおよび分析します。サーバーには、ブール値をサポートする全文検索インターフェース、タイプによるリソースフィルタリング、HTTPステータスなど、さまざまな機能が搭載されています。

mcp-server-webcrawl は、 LLM に Web コンテンツを検索するための完全なメニューを提供し、さまざまな Web クローラーと連携します。

mcp-server-webcrawlは無料のオープンソースで、Claude DesktopとPython(3.10以上)が必要です。コマンドラインからpip installでインストールできます。

pip install mcp-server-webcrawl

特徴

  • クロードデスクトップ対応

  • 全文検索サポート

  • タイプ、ステータスなどでフィルタリング

  • マルチクローラー対応

  • 高度な検索/ブール検索およびフィールド検索をサポート

Related MCP server: pure.md MCP server

MCP構成

Claude Desktopメニューから、「ファイル」>「設定」>「開発者」に移動します。「設定の編集」をクリックして設定ファイルを見つけ、任意のエディタで開き、サンプルを修正してdatasrcパスを反映します。

必要に応じて、mcpServers の下にさらに mcp-server-webcrawl 接続を設定できます。

{ "mcpServers": { "webcrawl": { "command": [varies by OS/env, see below], "args": [varies by crawler, see below] } } }

詳細なセットアップ手順については、セットアップ ガイドを参照してください。

WindowsとmacOS

Windows: コマンドを「mcp-server-webcrawl」に設定

macOS: コマンドは絶対パスに設定されています。つまり、$ which mcp-server-webcrawl の値です。

例えば:

"command": "/Users/yourusername/.local/bin/mcp-server-webcrawl",

システム上のmcp-server-webcrawl実行可能ファイルの絶対パスを見つけるには:

  1. ターミナルを開く

  2. which mcp-server-webcrawlを実行する

  3. 返されたフルパスをコピーして設定ファイルで使用します

wget (--mirror を使用)

datasrc 引数はミラーの親ディレクトリに設定する必要があります。

"args": ["--crawler", "wget", "--datasrc", "/path/to/wget/archives/"]

WARC

datasrc 引数は、WARC ファイルの親ディレクトリに設定する必要があります。

"args": ["--crawler", "warc", "--datasrc", "/path/to/warc/archives/"]

インタロボット

datasrc 引数は、データベースへの直接パスに設定する必要があります。

"args": ["--crawler", "interrobot", "--datasrc", "/path/to/Documents/InterroBot/interrobot.v2.db"]

datasrc 引数にはルートホストのディレクトリを設定する必要があります。Katana はページとメディアをホストごとに分離します。./archives/example.com/example.com が想定されており、適切です。より複雑なサイトでは、クロールデータがオリジンホストのディレクトリまで拡張されます。

"args": ["--crawler", "katana", "--datasrc", "/path/to/katana/archives/"]

SiteOne (オフライン Web サイトの生成を使用)

datasrc 引数はアーカイブの親ディレクトリに設定する必要があり、アーカイブが有効になっている必要があります。

"args": ["--crawler", "siteone", "--datasrc", "/path/to/SiteOne/archives/"]

ブール検索構文

クエリエンジンは、フィールド指定( field: value )による検索と複雑なブール式をサポートしています。フルテキストは、URL、コンテンツ、ヘッダーフィールドの組み合わせとしてサポートされます。

APIインターフェースはLLMが直接使用するように設計されていますが、検索構文に慣れておくと役立ちます。LLMによって生成された検索クエリは確認可能ですが、通常はUIでは折りたたまれています。クエリを確認する必要がある場合は、MCPの折りたたみ可能な部分を展開してください。

クエリの例

クエリの例

説明

プライバシー

全文単一キーワード一致

"プライバシーポリシー"

全文一致の完全フレーズ

境界*

全文ワイルドカードは、 boundar (boundary, boundary) で始まる結果と一致します。

id: 12345

idフィールドはIDによって特定のリソースと一致します

URL: example.com/*

url フィールドは、example.com/ を含む URL の結果と一致します。

タイプ: html

タイプフィールドはHTMLページのみに一致します

ステータス: 200

ステータス フィールドは特定の HTTP ステータス コードと一致します (200 に等しい)

ステータス: >=400

ステータス フィールドが特定の HTTP ステータス コード (400 以上) に一致する

コンテンツ: h1

コンテンツ フィールドはコンテンツと一致します (HTTP 応答本文、多くの場合 HTML ですが、常にそうとは限りません)

ヘッダー: text/xml

ヘッダーフィールドはHTTPレスポンスヘッダーと一致する

プライバシーとポリシー

全文は両方に一致します

プライバシーまたはポリシー

全文は次のいずれかに一致します

ポリシーはプライバシーではない

全文はプライバシーを含まないポリシーに一致します

(ログインまたはサインイン) AND フォーム

fulltext は fulltext ログインまたはフォームによるサインインに一致します

タイプ: html AND ステータス: 200

全文はHTTPが成功したHTMLページのみに一致します

フィールド検索定義

フィールド検索は検索精度を高め、検索インデックスのどの列をフィルタリングするかを指定できます。コンテンツ全体を検索するのではなく、URL、ヘッダー、コンテンツ本文などの特定の属性にクエリを絞り込むことができます。このアプローチにより、クロールデータ内の特定の属性やパターンを検索する際の効率が向上します。

分野

説明

id

データベースID

URL

リソースURL

タイプ

型の列挙リスト(型表を参照)

状態

HTTPレスポンスコード

ヘッダー

HTTPレスポンスヘッダー

コンテンツ

HTTP ボディ - HTML、CSS、JS など

コンテンツタイプ

クロールtype:フィールド検索では、幅広いコンテンツタイプグループによるフィルタリングが可能で、複雑な拡張子クエリなしで画像をフィルタリングする場合に特に便利です。例えば、「login」を含まないページを検索するにはtype: html NOT content: loginと検索し、 type: imgと検索して画像リソースを分析できます。以下の表は、検索システムでサポートされているすべてのコンテンツタイプを示しています。

タイプ

説明

html

ウェブページ

インラインフレーム

iframe

画像

ウェブ画像

オーディオ

ウェブオーディオファイル

ビデオ

ウェブビデオファイル

フォント

ウェブフォントファイル

スタイル

CSSスタイルシート

スクリプト

JavaScriptファイル

RSSフィード

RSSシンジケーションフィード

文章

プレーンテキストコンテンツ

pdf

PDFファイル

ドキュメント

MS Word文書

他の

未分類

-
security - not tested
F
license - not found
-
quality - not tested

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/pragmar/mcp_server_webcrawl'

If you have feedback or need assistance with the MCP directory API, please join our Discord server