mcp-server-webcrawl
モデルコンテキストプロトコル(MCP)を使用して、WebクロールとAI言語モデル間のギャップを埋めます。mcp -server-webcrawlを使用すると、AIクライアントはユーザーの指示に従って、または自律的にWebコンテンツをフィルタリングおよび分析します。サーバーには、ブール値をサポートする全文検索インターフェース、タイプによるリソースフィルタリング、HTTPステータスなど、さまざまな機能が搭載されています。
mcp-server-webcrawl は、 LLM に Web コンテンツを検索するための完全なメニューを提供し、さまざまな Web クローラーと連携します。
mcp-server-webcrawlは無料のオープンソースで、Claude DesktopとPython(3.10以上)が必要です。コマンドラインからpip installでインストールできます。
特徴
- クロードデスクトップ対応
- 全文検索サポート
- タイプ、ステータスなどでフィルタリング
- マルチクローラー対応
- 高度な検索/ブール検索およびフィールド検索をサポート
MCP構成
Claude Desktopメニューから、「ファイル」>「設定」>「開発者」に移動します。「設定の編集」をクリックして設定ファイルを見つけ、任意のエディタで開き、サンプルを修正してdatasrcパスを反映します。
必要に応じて、mcpServers の下にさらに mcp-server-webcrawl 接続を設定できます。
詳細なセットアップ手順については、セットアップ ガイドを参照してください。
WindowsとmacOS
Windows: コマンドを「mcp-server-webcrawl」に設定
macOS: コマンドは絶対パスに設定されています。つまり、$ which mcp-server-webcrawl の値です。
例えば:
システム上のmcp-server-webcrawl
実行可能ファイルの絶対パスを見つけるには:
- ターミナルを開く
which mcp-server-webcrawl
を実行する- 返されたフルパスをコピーして設定ファイルで使用します
wget (--mirror を使用)
datasrc 引数はミラーの親ディレクトリに設定する必要があります。
WARC
datasrc 引数は、WARC ファイルの親ディレクトリに設定する必要があります。
インタロボット
datasrc 引数は、データベースへの直接パスに設定する必要があります。
刀
datasrc 引数にはルートホストのディレクトリを設定する必要があります。Katana はページとメディアをホストごとに分離します。./archives/example.com/example.com が想定されており、適切です。より複雑なサイトでは、クロールデータがオリジンホストのディレクトリまで拡張されます。
SiteOne (オフライン Web サイトの生成を使用)
datasrc 引数はアーカイブの親ディレクトリに設定する必要があり、アーカイブが有効になっている必要があります。
ブール検索構文
クエリエンジンは、フィールド指定( field: value
)による検索と複雑なブール式をサポートしています。フルテキストは、URL、コンテンツ、ヘッダーフィールドの組み合わせとしてサポートされます。
APIインターフェースはLLMが直接使用するように設計されていますが、検索構文に慣れておくと役立ちます。LLMによって生成された検索クエリは確認可能ですが、通常はUIでは折りたたまれています。クエリを確認する必要がある場合は、MCPの折りたたみ可能な部分を展開してください。
クエリの例
クエリの例 | 説明 |
---|---|
プライバシー | 全文単一キーワード一致 |
"プライバシーポリシー" | 全文一致の完全フレーズ |
境界* | 全文ワイルドカードは、 boundar (boundary, boundary) で始まる結果と一致します。 |
id: 12345 | idフィールドはIDによって特定のリソースと一致します |
URL: example.com/* | url フィールドは、example.com/ を含む URL の結果と一致します。 |
タイプ: html | タイプフィールドはHTMLページのみに一致します |
ステータス: 200 | ステータス フィールドは特定の HTTP ステータス コードと一致します (200 に等しい) |
ステータス: >=400 | ステータス フィールドが特定の HTTP ステータス コード (400 以上) に一致する |
コンテンツ: h1 | コンテンツ フィールドはコンテンツと一致します (HTTP 応答本文、多くの場合 HTML ですが、常にそうとは限りません) |
ヘッダー: text/xml | ヘッダーフィールドはHTTPレスポンスヘッダーと一致する |
プライバシーとポリシー | 全文は両方に一致します |
プライバシーまたはポリシー | 全文は次のいずれかに一致します |
ポリシーはプライバシーではない | 全文はプライバシーを含まないポリシーに一致します |
(ログインまたはサインイン) AND フォーム | fulltext は fulltext ログインまたはフォームによるサインインに一致します |
タイプ: html AND ステータス: 200 | 全文はHTTPが成功したHTMLページのみに一致します |
フィールド検索定義
フィールド検索は検索精度を高め、検索インデックスのどの列をフィルタリングするかを指定できます。コンテンツ全体を検索するのではなく、URL、ヘッダー、コンテンツ本文などの特定の属性にクエリを絞り込むことができます。このアプローチにより、クロールデータ内の特定の属性やパターンを検索する際の効率が向上します。
分野 | 説明 |
---|---|
id | データベースID |
URL | リソースURL |
タイプ | 型の列挙リスト(型表を参照) |
状態 | HTTPレスポンスコード |
ヘッダー | HTTPレスポンスヘッダー |
コンテンツ | HTTP ボディ - HTML、CSS、JS など |
コンテンツタイプ
クロールtype:
フィールド検索では、幅広いコンテンツタイプグループによるフィルタリングが可能で、複雑な拡張子クエリなしで画像をフィルタリングする場合に特に便利です。例えば、「login」を含まないページを検索するにはtype: html NOT content: login
と検索し、 type: img
と検索して画像リソースを分析できます。以下の表は、検索システムでサポートされているすべてのコンテンツタイプを示しています。
タイプ | 説明 |
---|---|
html | ウェブページ |
インラインフレーム | iframe |
画像 | ウェブ画像 |
オーディオ | ウェブオーディオファイル |
ビデオ | ウェブビデオファイル |
フォント | ウェブフォントファイル |
スタイル | CSSスタイルシート |
スクリプト | JavaScriptファイル |
RSSフィード | RSSシンジケーションフィード |
文章 | プレーンテキストコンテンツ |
PDFファイル | |
ドキュメント | MS Word文書 |
他の | 未分類 |
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
ウェブクロールとAI言語モデル間のギャップを埋めます。mcp-server-webcrawlを使用すると、AIクライアントがユーザーの指示に従って、または自律的にウェブコンテンツをフィルタリング・分析し、ウェブコンテンツから洞察を抽出します。
WARC、wget、InterroBot、Katana、および SiteOne クローラーをサポートします。
Related MCP Servers
- -securityAlicense-qualityCrawl4AI MCP Server is an intelligent information retrieval server offering robust search capabilities and LLM-optimized web content understanding, utilizing multi-engine search and intelligent content extraction to efficiently gather and comprehend internet information.Last updated -81PythonMIT License
- -securityAlicense-qualityAn MCP server that helps AI assistants access text content from websites that implement bot detection, bridging the gap between what you can see in your browser and what the AI can access.Last updated -1PythonApache 2.0
- -securityFlicense-qualityAn MCP server that crawls API documentation websites and exposes their content to AI models, enabling them to search, browse, and reference API specifications.Last updated -Python
- -security-license-qualityAn MCP server that enhances Brave Search results by using Puppeteer to extract full webpage content and explore linked pages, enabling AI assistants to perform comprehensive web research with configurable depth.Last updated -1TypeScript