mcp-server-webcrawl

モデルコンテキストプロトコル（MCP）を使用して、WebクロールとAI言語モデル間のギャップを埋めます。mcp -server-webcrawlを使用すると、AIクライアントはユーザーの指示に従って、または自律的にWebコンテンツをフィルタリングおよび分析します。サーバーには、ブール値をサポートする全文検索インターフェース、タイプによるリソースフィルタリング、HTTPステータスなど、さまざまな機能が搭載されています。

mcp-server-webcrawl は、 LLM に Web コンテンツを検索するための完全なメニューを提供し、さまざまな Web クローラーと連携します。

mcp-server-webcrawlは無料のオープンソースで、Claude DesktopとPython（3.10以上）が必要です。コマンドラインからpip installでインストールできます。

pip install mcp-server-webcrawl

特徴

クロードデスクトップ対応
全文検索サポート
タイプ、ステータスなどでフィルタリング
マルチクローラー対応
高度な検索/ブール検索およびフィールド検索をサポート

MCP構成

Claude Desktopメニューから、「ファイル」>「設定」>「開発者」に移動します。「設定の編集」をクリックして設定ファイルを見つけ、任意のエディタで開き、サンプルを修正してdatasrcパスを反映します。

必要に応じて、mcpServers の下にさらに mcp-server-webcrawl 接続を設定できます。

{ "mcpServers": { "webcrawl": { "command": [varies by OS/env, see below], "args": [varies by crawler, see below] } } }

詳細なセットアップ手順については、セットアップガイドを参照してください。

WindowsとmacOS

Windows: コマンドを「mcp-server-webcrawl」に設定

macOS: コマンドは絶対パスに設定されています。つまり、$ which mcp-server-webcrawl の値です。

例えば：

"command": "/Users/yourusername/.local/bin/mcp-server-webcrawl",

システム上のmcp-server-webcrawl実行可能ファイルの絶対パスを見つけるには:

ターミナルを開く
which mcp-server-webcrawlを実行する
返されたフルパスをコピーして設定ファイルで使用します

wget (--mirror を使用)

datasrc 引数はミラーの親ディレクトリに設定する必要があります。

"args": ["--crawler", "wget", "--datasrc", "/path/to/wget/archives/"]

WARC

datasrc 引数は、WARC ファイルの親ディレクトリに設定する必要があります。

"args": ["--crawler", "warc", "--datasrc", "/path/to/warc/archives/"]

インタロボット

datasrc 引数は、データベースへの直接パスに設定する必要があります。

"args": ["--crawler", "interrobot", "--datasrc", "/path/to/Documents/InterroBot/interrobot.v2.db"]

刀

datasrc 引数にはルートホストのディレクトリを設定する必要があります。Katana はページとメディアをホストごとに分離します。./archives/example.com/example.com が想定されており、適切です。より複雑なサイトでは、クロールデータがオリジンホストのディレクトリまで拡張されます。

"args": ["--crawler", "katana", "--datasrc", "/path/to/katana/archives/"]

SiteOne (オフライン Web サイトの生成を使用)

datasrc 引数はアーカイブの親ディレクトリに設定する必要があり、アーカイブが有効になっている必要があります。

"args": ["--crawler", "siteone", "--datasrc", "/path/to/SiteOne/archives/"]

ブール検索構文

クエリエンジンは、フィールド指定（ field: value ）による検索と複雑なブール式をサポートしています。フルテキストは、URL、コンテンツ、ヘッダーフィールドの組み合わせとしてサポートされます。

APIインターフェースはLLMが直接使用するように設計されていますが、検索構文に慣れておくと役立ちます。LLMによって生成された検索クエリは確認可能ですが、通常はUIでは折りたたまれています。クエリを確認する必要がある場合は、MCPの折りたたみ可能な部分を展開してください。

クエリの例

クエリの例	説明
プライバシー	全文単一キーワード一致
"プライバシーポリシー"	全文一致の完全フレーズ
境界*	全文ワイルドカードは、 boundar (boundary, boundary) で始まる結果と一致します。
id: 12345	idフィールドはIDによって特定のリソースと一致します
URL: example.com/*	url フィールドは、example.com/ を含む URL の結果と一致します。
タイプ: html	タイプフィールドはHTMLページのみに一致します
ステータス: 200	ステータスフィールドは特定の HTTP ステータスコードと一致します (200 に等しい)
ステータス: >=400	ステータスフィールドが特定の HTTP ステータスコード (400 以上) に一致する
コンテンツ: h1	コンテンツフィールドはコンテンツと一致します (HTTP 応答本文、多くの場合 HTML ですが、常にそうとは限りません)
ヘッダー: text/xml	ヘッダーフィールドはHTTPレスポンスヘッダーと一致する
プライバシーとポリシー	全文は両方に一致します
プライバシーまたはポリシー	全文は次のいずれかに一致します
ポリシーはプライバシーではない	全文はプライバシーを含まないポリシーに一致します
(ログインまたはサインイン) AND フォーム	fulltext は fulltext ログインまたはフォームによるサインインに一致します
タイプ: html AND ステータス: 200	全文はHTTPが成功したHTMLページのみに一致します

フィールド検索定義

フィールド検索は検索精度を高め、検索インデックスのどの列をフィルタリングするかを指定できます。コンテンツ全体を検索するのではなく、URL、ヘッダー、コンテンツ本文などの特定の属性にクエリを絞り込むことができます。このアプローチにより、クロールデータ内の特定の属性やパターンを検索する際の効率が向上します。

分野	説明
id	データベースID
URL	リソースURL
タイプ	型の列挙リスト（型表を参照）
状態	HTTPレスポンスコード
ヘッダー	HTTPレスポンスヘッダー
コンテンツ	HTTP ボディ - HTML、CSS、JS など

コンテンツタイプ

クロールtype:フィールド検索では、幅広いコンテンツタイプグループによるフィルタリングが可能で、複雑な拡張子クエリなしで画像をフィルタリングする場合に特に便利です。例えば、「login」を含まないページを検索するにはtype: html NOT content: loginと検索し、 type: imgと検索して画像リソースを分析できます。以下の表は、検索システムでサポートされているすべてのコンテンツタイプを示しています。

タイプ	説明
html	ウェブページ
インラインフレーム	iframe
画像	ウェブ画像
オーディオ	ウェブオーディオファイル
ビデオ	ウェブビデオファイル
フォント	ウェブフォントファイル
スタイル	CSSスタイルシート
スクリプト	JavaScriptファイル
RSSフィード	RSSシンジケーションフィード
文章	プレーンテキストコンテンツ
pdf	PDFファイル
ドキュメント	MS Word文書
他の	未分類

This server cannot be installed

security - not tested

license - not tested

quality - not tested

How are these scores calculated?

local-only server

The server can only run on the client's local machine because it depends on local resources.

ウェブクロールとAI言語モデル間のギャップを埋めます。mcp-server-webcrawlを使用すると、AIクライアントがユーザーの指示に従って、または自律的にウェブコンテンツをフィルタリング・分析し、ウェブコンテンツから洞察を抽出します。

WARC、wget、InterroBot、Katana、および SiteOne クローラーをサポートします。

Related MCP Servers

Crawl4AI MCP Server
weidwonder
-
security
-
license
-
quality
Crawl4AI MCP Server is an intelligent information retrieval server offering robust search capabilities and LLM-optimized web content understanding, utilizing multi-engine search and intelligent content extraction to efficiently gather and comprehend internet information.
Last updated -
118
MIT License
pure.md MCP serverofficial
puremd
A
security
-
license
A
quality
An MCP server that enables AI clients like Cursor, Windsurf, and Claude Desktop to access web content in markdown format, providing web unblocking and searching capabilities.
Last updated -
2
32
41
API Docs MCP Server
ShotaNagafuchi
-
security
-
license
-
quality
An MCP server that crawls API documentation websites and exposes their content to AI models, enabling them to search, browse, and reference API specifications.
Last updated -
crawl4ai-mcp
ritvij14
A
security
-
license
A
quality
An MCP Server for Web scraping and Crawling, built using Crawl4AI
Last updated -
2
25

View all related MCP servers

mcp-server-webcrawl

mcp-server-webcrawl

特徴

MCP構成

WindowsとmacOS

wget (--mirror を使用)

WARC

インタロボット

刀

SiteOne (オフライン Web サイトの生成を使用)

ブール検索構文

フィールド検索定義

コンテンツタイプ

Related MCP Servers

Crawl4AI MCP Server

pure.md MCP serverofficial

API Docs MCP Server

crawl4ai-mcp

Appeared in Searches

New MCP Servers

MCP directory API