Crawl4AI MCP 服务器

⚠️ 注意

MCP 服务器目前正在开发中
尚未准备好投入生产
将在运行时更新

Crawl4AI MCP 服务器

🚀 Crawl4AI 的高性能 MCP 服务器 - 使 AI 助手能够通过模型上下文协议 (MCP) 进行网页抓取、爬取和深度研究。比 FireCrawl 更快、更高效！

概述

该项目实现了一个自定义的模型上下文协议 (MCP) 服务器，该服务器与开源 Web 数据抓取和爬取库 Crawl4AI 集成。该服务器作为 CloudFlare Workers 上的远程 MCP 服务器部署，允许像 Claude 这样的 AI 助手访问 Crawl4AI 强大的 Web 数据抓取功能。

文档

有关该项目的详细内容，请参阅以下文档：

迁移计划- 从 Firecrawl 迁移到 Crawl4AI 的详细计划
增强架构——具有云提供商灵活性的多租户架构
实施指南- 技术实施细节和代码示例
代码库简化——有关代码简化和最佳实践的详细信息

特征

Web数据采集

🌐单个网页抓取：从单个网页中提取内容
🕸️ Web 爬取：爬取具有可配置深度和页面限制的网站
🗺️ URL 发现：从起点映射和发现 URL
🕸️异步爬取：高效爬取整个网站

内容处理

🔍深入研究：跨多个页面进行全面研究
📊结构化数据提取：使用 CSS 选择器或基于 LLM 的提取来提取特定数据
🔎内容搜索：搜索之前抓取的内容

集成与安全

🔄 MCP 集成：与 MCP 客户端（Claude Desktop 等）无缝集成
🔒 OAuth 身份验证：通过适当的授权实现安全访问
🔒身份验证选项：通过 OAuth 或 API 密钥（Bearer 令牌）进行安全访问
⚡高性能：针对速度和效率进行了优化

项目结构

crawl4ai-mcp/
├── src/
│   ├── index.ts               # Main entry point with OAuth provider setup
│   ├── auth-handler.ts        # Authentication handler
│   ├── mcp-server.ts          # MCP server implementation
│   ├── crawl4ai-adapter.ts    # Adapter for Crawl4AI API
│   ├── tool-schemas/          # MCP tool schema definitions
│   │   └── [...].ts           # Tool schemas
│   ├── handlers/
│   │   ├── crawl.ts           # Web crawling implementation
│   │   ├── search.ts          # Search functionality
│   │   └── extract.ts         # Content extraction
│   └── utils/                 # Utility functions
├── tests/                     # Test cases
├── .github/                   # GitHub configuration
├── wrangler.toml              # CloudFlare Workers configuration
├── tsconfig.json              # TypeScript configuration
├── package.json               # Node.js dependencies
└── README.md                  # Project documentation

入门

先决条件

Node.js （v18 或更高版本）
npm
Wrangler （CloudFlare Workers CLI）
CloudFlare 帐户

安装

克隆存储库：
git clone https://github.com/BjornMelin/crawl4ai-mcp-server.git cd crawl4ai-mcp-server
安装依赖项：
npm install
设置 CloudFlare KV 命名空间：
wrangler kv:namespace create CRAWL_DATA
使用 KV 命名空间 ID 更新wrangler.toml ：
kv_namespaces = [ { binding = "CRAWL_DATA", id = "your-namespace-id" } ]

发展

本地开发

启动开发服务器：
npm run dev
服务器将在http://localhost:8787 上可用

部署

部署到 CloudFlare Workers：
npm run deploy
您的服务器将在分配给您部署的工作者的 CloudFlare Workers URL 上可用。

与 MCP 客户端一起使用

该服务器实现了模型上下文协议，允许人工智能助手访问其工具。

验证

使用 workers-oauth-provider 实现 OAuth 身份验证
使用 Bearer 令牌添加 API 密钥身份验证
创建登录页面和令牌管理

连接到 MCP 客户端

使用分配给您部署的 Worker 的 CloudFlare Workers URL
在 Claude Desktop 或其他 MCP 客户端中，将此服务器添加为工具源

可用工具

crawl ：从起始 URL 抓取网页
getCrawl ：通过 ID 检索爬取数据
listCrawls ：列出所有爬网或按域过滤
search ：通过查询搜索索引文档
extract ：从 URL 中提取结构化内容

配置

可以通过修改wrangler.toml中的环境变量来配置服务器：

MAX_CRAWL_DEPTH ：网页爬取的最大深度（默认值：3）
MAX_CRAWL_PAGES ：抓取的最大页面数（默认值：100）
API_VERSION ：API 版本字符串（默认值：“v1”）
OAUTH_CLIENT_ID ：用于身份验证的 OAuth 客户端 ID
OAUTH_CLIENT_SECRET ：用于身份验证的 OAuth 客户端密钥

路线图

该项目的开发考虑了以下因素：

项目设置和配置：CloudFlare Worker 设置、TypeScript 配置
MCP 服务器和工具模式：使用工具定义实现 MCP 服务器
Crawl4AI 适配器：与 Crawl4AI 功能集成
OAuth 身份验证：安全身份验证实现
性能优化：提高速度和可靠性
高级提取功能：提高结构化数据提取能力

贡献

欢迎贡献代码！在开始开发功能或修复错误之前，请先查看未解决的问题或创建新的问题。请参阅贡献指南，了解详细指南。

支持

如果您遇到问题或有疑问：

在 GitHub 存储库上打开一个问题
查看Crawl4AI 文档
参考模型上下文协议规范

如何引用

如果您在研究或项目中使用 Crawl4AI MCP 服务器，请使用以下 BibTeX 条目引用它：

@software{crawl4ai_mcp_2025,
  author = {Melin, Bjorn},
  title = {Crawl4AI MCP Server: High-performance Web Crawling for AI Assistants},
  url = {https://github.com/BjornMelin/crawl4ai-mcp-server},
  version = {1.0.0},
  year = {2025},
  month = {5}
}

执照

麻省理工学院

This server cannot be installed

security - not tested

license - not found

quality - not tested

How are these scores calculated?

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

高性能服务器，使 AI 助手能够通过模型上下文协议访问网络抓取、爬行和深度研究功能。

Crawl4AI MCP 服务器

Related MCP Servers

ScrapeGraph MCP Serverofficial
ScrapeGraphAI
A
security
A
license
A
quality
A production-ready Model Context Protocol server that enables language models to leverage AI-powered web scraping capabilities, offering tools for transforming webpages to markdown, extracting structured data, and executing AI-powered web searches.
Last updated 3 days ago
3
36
Python
MIT License
Firecrawl MCP Server
mcma123
-
security
A
license
-
quality
A Model Context Protocol server that enables AI assistants to perform advanced web scraping, crawling, searching, and data extraction through the Firecrawl API.
Last updated 5 months ago
18,926
MIT License
WebSearch-MCP
mnhlt
A
security
F
license
A
quality
A Model Context Protocol server that enables AI assistants to perform real-time web searches, retrieving up-to-date information from the internet via a Crawler API.
Last updated 3 months ago
1
752
15
JavaScript
Prysm MCP Server
pinkpixel-dev
A
security
A
license
A
quality
A Model Context Protocol server enabling AI assistants to scrape web content with high accuracy and flexibility, supporting multiple scraping modes and content formatting options.
Last updated 2 months ago
4
616
2
TypeScript
MIT License

View all related MCP servers

Crawl4AI MCP Server

⚠️ 注意