mcp-server-webcrawl

by pragmar
Verified

local-only server

The server can only run on the client’s local machine because it depends on local resources.

Integrations

  • Enables browsing and analyzing web content crawled by Katana, with support for accessing and searching through cached text files.

  • Requires Python 3.10 or newer to run, with installation via pip package manager.

mcp-服务器-网络爬虫

使用模型上下文协议 (MCP) 弥合您的网络爬虫与 AI 语言模型之间的差距。借助mcp-server-webcrawl ,您的 AI 客户端可以根据您的指示或自主地过滤和分析网络内容。该服务器包含一个支持布尔值的全文搜索界面、按类型过滤资源、HTTP 状态等功能。

mcp-server-webcrawl为 LLM 提供了一个完整的菜单来搜索您的网络内容,并可与各种网络爬虫配合使用:

mcp-server-webcrawl是免费开源的,需要 Claude Desktop 和 Python (>=3.10)。可以通过 pip install 在命令行上安装:

pip install mcp_server_webcrawl

特征

  • 克劳德桌面准备就绪
  • 全文搜索支持
  • 按类型、状态等进行过滤
  • 兼容多种爬虫
  • 快速 MCP 配置
  • ChatGPT 支持即将推出

MCP 配置

在 Claude 桌面菜单中,前往“文件”>“设置”>“开发者”。单击“编辑配置”找到配置文件,在您选择的编辑器中打开,并修改示例以反映您的 datasrc 路径。

您可以根据需要在 mcpServers 下设置更多的 mcp-server-webcrawl 连接。

{ "mcpServers": { "webcrawl": { "command": "mcp-server-webcrawl", "args": [varies by crawler, see below] } } }

wget(使用--mirror)

datasrc 参数应该设置为镜像的父目录。

"args": ["--crawler", "wget", "--datasrc", "/path/to/wget/archives/"]

战争研究理事会

datasrc 参数应设置为 WARC 文件的父目录。

"args": ["--crawler", "warc", "--datasrc", "/path/to/warc/archives/"]

InterroBot

datasrc 参数应设置为数据库的直接路径。

"args": ["--crawler", "interrobot", "--datasrc", "/path/to/Documents/InterroBot/interrobot.v2.db"]

武士刀

datasrc 参数应设置为文本缓存文件的父目录。

"args": ["--crawler", "katana", "--datasrc", "/path/to/katana/archives/"]

SiteOne(使用归档)

datasrc 参数应设置为档案的父目录,并且必须启用存档。

"args": ["--crawler", "siteone", "--datasrc", "/path/to/SiteOne/archives/"]
-
security - not tested
F
license - not found
-
quality - not tested

弥合您的网页爬虫与 AI 语言模型之间的差距。借助 mcp-server-webcrawl,您的 AI 客户端可以根据您的指示或自主地过滤和分析网页内容,并从中提取洞察。

支持 WARC、wget、InterroBot、Katana 和 SiteOne 爬虫。

  1. Features
    1. MCP Configuration
      1. wget (using --mirror)
      2. WARC
      3. InterroBot
      4. Katana
      5. SiteOne (using archiving)
    ID: 6roqjljpg8