Skip to main content
Glama

mcp-server-webcrawl

mcp-服务器-网络爬虫

使用模型上下文协议 (MCP) 弥合您的网络爬虫与 AI 语言模型之间的差距。借助mcp-server-webcrawl ,您的 AI 客户端可以根据您的指示或自主地过滤和分析网络内容。该服务器包含一个支持布尔值的全文搜索界面、按类型过滤资源、HTTP 状态等功能。

mcp-server-webcrawl为 LLM 提供了一个完整的菜单来搜索您的网络内容,并可与各种网络爬虫配合使用:

mcp-server-webcrawl是免费开源的,需要 Claude Desktop 和 Python (>=3.10)。它可以通过命令行使用 pip install 进行安装:

pip install mcp-server-webcrawl

特征

  • 克劳德桌面准备就绪
  • 全文搜索支持
  • 按类型、状态等进行过滤
  • 兼容多种爬虫
  • 支持高级/布尔和字段搜索

MCP 配置

在 Claude 桌面菜单中,前往“文件”>“设置”>“开发者”。单击“编辑配置”找到配置文件,在您选择的编辑器中打开,并修改示例以反映您的 datasrc 路径。

您可以根据需要在 mcpServers 下设置更多的 mcp-server-webcrawl 连接。

{ "mcpServers": { "webcrawl": { "command": [varies by OS/env, see below], "args": [varies by crawler, see below] } } }

有关分步设置,请参阅设置指南

Windows 与 macOS

Windows:命令设置为“mcp-server-webcrawl”

macOS:命令设置为绝对路径,即 $which mcp-server-webcrawl 的值

例如:

"command": "/Users/yourusername/.local/bin/mcp-server-webcrawl",

要查找系统上mcp-server-webcrawl可执行文件的绝对路径:

  1. 打开终端
  2. 运行which mcp-server-webcrawl
  3. 复制返回的完整路径并在配置文件中使用它

wget(使用--mirror)

datasrc 参数应该设置为镜像的父目录。

"args": ["--crawler", "wget", "--datasrc", "/path/to/wget/archives/"]

战争研究理事会

datasrc 参数应设置为 WARC 文件的父目录。

"args": ["--crawler", "warc", "--datasrc", "/path/to/warc/archives/"]

InterroBot

datasrc 参数应设置为数据库的直接路径。

"args": ["--crawler", "interrobot", "--datasrc", "/path/to/Documents/InterroBot/interrobot.v2.db"]

武士刀

datasrc 参数应设置为根主机的目录。Katana 按主机区分页面和媒体,因此 ./archives/example.com/example.com 是合理的,也是合适的。更复杂的网站会将抓取的数据扩展到原始主机目录中。

"args": ["--crawler", "katana", "--datasrc", "/path/to/katana/archives/"]

SiteOne(使用生成离线网站

datasrc 参数应设置为档案的父目录,并且必须启用存档。

"args": ["--crawler", "siteone", "--datasrc", "/path/to/SiteOne/archives/"]

布尔搜索语法

查询引擎支持特定字段 ( field: value ) 搜索和复杂的布尔表达式。支持将 url、content 和 headers 字段组合起来的全文搜索。

虽然 API 接口设计为供 LLM 直接使用,但熟悉搜索语法会很有帮助。LLM 生成的搜索是可检查的,但通常在 UI 中折叠。如果您需要查看查询,请展开 MCP 折叠部分。

示例查询

查询示例描述
隐私全文单关键字匹配
“隐私政策”全文匹配精确短语
边界*全文通配符匹配以边界(边界,边界)开头的结果
编号:12345id 字段通过 ID 匹配特定资源
网址:example.com/*url 字段匹配包含 example.com/ 的 URL 的结果
类型:html仅适用于 HTML 页面的类型字段匹配
状态:200状态字段匹配特定的 HTTP 状态代码(等于 200)
状态:>=400状态字段匹配特定的 HTTP 状态代码(大于或等于 400)
内容:h1内容字段与内容匹配(HTTP 响应主体,通常但不总是 HTML)
标题:文本/xmlheaders 字段匹配 HTTP 响应头
隐私和政策全文匹配
隐私政策或政策全文匹配
政策而非隐私全文匹配不包含隐私的政策
(登录或登录)和表格fulltext 匹配 fullext login 或 signin with form
类型:html 和状态:200fulltext 仅匹配 HTTP 成功的 HTML 页面

字段搜索定义

字段搜索提供精准的搜索,让您可以指定要过滤的搜索索引列。您可以将查询限制为特定属性(例如网址、标头或内容正文),而无需搜索所有内容。这种方法在查找爬取数据中的特定属性或模式时,可以提高效率。

场地描述
ID数据库 ID
网址资源 URL
类型枚举类型列表(参见类型表)
地位HTTP 响应代码
标题HTTP 响应标头
内容HTTP 主体——HTML、CSS、JS 等

内容类型

抓取的内容不仅包含 HTML 页面,还包含多种资源类型。type type: field 搜索功能允许按广泛的内容类型组进行筛选,这在筛选不包含复杂扩展查询的图片时尤其有用。例如,您可以搜索type: html NOT content: login来查找不包含“login”的页面,或者搜索type: img来分析图片资源。下表列出了搜索系统支持的所有内容类型。

类型描述
html网页
内嵌框架iframe
图片网络图片
声音的网络音频文件
视频网络视频文件
字体网络字体文件
风格CSS 样式表
脚本JavaScript 文件
RSSRSS 联合提要
文本纯文本内容
PDFPDF 文件
文档MS Word 文档
其他未分类
-
security - not tested
F
license - not found
-
quality - not tested

local-only server

The server can only run on the client's local machine because it depends on local resources.

弥合您的网页爬虫与 AI 语言模型之间的差距。借助 mcp-server-webcrawl,您的 AI 客户端可以根据您的指示或自主地过滤和分析网页内容,并从中提取洞察。

支持 WARC、wget、InterroBot、Katana 和 SiteOne 爬虫。

  1. 特征
    1. MCP 配置
      1. Windows 与 macOS
      2. wget(使用--mirror)
      3. 战争研究理事会
      4. InterroBot
      5. 武士刀
      6. SiteOne(使用生成离线网站)
    2. 布尔搜索语法
      1. 字段搜索定义
        1. 内容类型

          Related MCP Servers

          • -
            security
            A
            license
            -
            quality
            Crawl4AI MCP Server is an intelligent information retrieval server offering robust search capabilities and LLM-optimized web content understanding, utilizing multi-engine search and intelligent content extraction to efficiently gather and comprehend internet information.
            Last updated -
            95
            Python
            MIT License
            • Apple
            • Linux
          • -
            security
            F
            license
            -
            quality
            MCP server that enables AI assistants to perform SEO automation tasks including keyword research, SERP analysis, and competitor analysis through Google Ads API integration.
            Last updated -
          • A
            security
            F
            license
            A
            quality
            An MCP server that enables AI clients like Cursor, Windsurf, and Claude Desktop to access web content in markdown format, providing web unblocking and searching capabilities.
            Last updated -
            2
            583
            30
            JavaScript
            • Apple
          • -
            security
            F
            license
            -
            quality
            An MCP server that crawls API documentation websites and exposes their content to AI models, enabling them to search, browse, and reference API specifications.
            Last updated -
            Python

          View all related MCP servers

          MCP directory API

          We provide all the information about MCP servers via our MCP API.

          curl -X GET 'https://glama.ai/api/mcp/v1/servers/pragmar/mcp_server_webcrawl'

          If you have feedback or need assistance with the MCP directory API, please join our Discord server