mcp-server-webcrawl

by pragmar
Verified

local-only server

The server can only run on the client’s local machine because it depends on local resources.

Integrations

  • Enables browsing and analyzing web content crawled by Katana, with support for accessing and searching through cached text files.

  • Requires Python 3.10 or newer to run, with installation via pip package manager.

mcp-server-webcrawl

モデルコンテキストプロトコル(MCP)を使用して、WebクロールとAI言語モデル間のギャップを埋めます。mcp -server-webcrawlを使用すると、AIクライアントはユーザーの指示に従って、または自律的にWebコンテンツをフィルタリングおよび分析します。サーバーには、ブール値をサポートする全文検索インターフェース、タイプによるリソースフィルタリング、HTTPステータスなど、さまざまな機能が搭載されています。

mcp-server-webcrawl は、 LLM に Web コンテンツを検索するための完全なメニューを提供し、さまざまな Web クローラーと連携します。

mcp-server-webcrawlは無料のオープンソースで、Claude DesktopとPython(3.10以上)が必要です。コマンドラインからpip installでインストールできます。

pip install mcp_server_webcrawl

特徴

  • クロードデスクトップ対応
  • 全文検索サポート
  • タイプ、ステータスなどでフィルタリング
  • マルチクローラー対応
  • クイックMCP構成
  • ChatGPTサポートは近日中に開始されます

MCP構成

Claude Desktopメニューから、「ファイル」>「設定」>「開発者」に移動します。「設定の編集」をクリックして設定ファイルを見つけ、任意のエディタで開き、サンプルを修正してdatasrcパスを反映します。

必要に応じて、mcpServers の下にさらに mcp-server-webcrawl 接続を設定できます。

{ "mcpServers": { "webcrawl": { "command": "mcp-server-webcrawl", "args": [varies by crawler, see below] } } }

wget (--mirror を使用)

datasrc 引数はミラーの親ディレクトリに設定する必要があります。

"args": ["--crawler", "wget", "--datasrc", "/path/to/wget/archives/"]

WARC

datasrc 引数は、WARC ファイルの親ディレクトリに設定する必要があります。

"args": ["--crawler", "warc", "--datasrc", "/path/to/warc/archives/"]

インタロボット

datasrc 引数は、データベースへの直接パスに設定する必要があります。

"args": ["--crawler", "interrobot", "--datasrc", "/path/to/Documents/InterroBot/interrobot.v2.db"]

datasrc 引数は、テキスト キャッシュ ファイルの親ディレクトリに設定する必要があります。

"args": ["--crawler", "katana", "--datasrc", "/path/to/katana/archives/"]

SiteOne(アーカイブを使用)

datasrc 引数はアーカイブの親ディレクトリに設定する必要があり、アーカイブが有効になっている必要があります。

"args": ["--crawler", "siteone", "--datasrc", "/path/to/SiteOne/archives/"]
-
security - not tested
F
license - not found
-
quality - not tested

ウェブクロールとAI言語モデル間のギャップを埋めます。mcp-server-webcrawlを使用すると、AIクライアントがユーザーの指示に従って、または自律的にウェブコンテンツをフィルタリング・分析し、ウェブコンテンツから洞察を抽出します。

WARC、wget、InterroBot、Katana、および SiteOne クローラーをサポートします。

  1. Features
    1. MCP Configuration
      1. wget (using --mirror)
      2. WARC
      3. InterroBot
      4. Katana
      5. SiteOne (using archiving)
    ID: 6roqjljpg8