⚠️ 注意

MCP 服务器目前正在开发中
尚未准备好投入生产
将在运行时更新

Crawl4AI MCP 服务器

🚀 Crawl4AI 的高性能 MCP 服务器 - 使 AI 助手能够通过模型上下文协议 (MCP) 进行网页抓取、爬取和深度研究。比 FireCrawl 更快、更高效！

概述

该项目实现了一个自定义的模型上下文协议 (MCP) 服务器，该服务器与开源 Web 数据抓取和爬取库 Crawl4AI 集成。该服务器作为 CloudFlare Workers 上的远程 MCP 服务器部署，允许像 Claude 这样的 AI 助手访问 Crawl4AI 强大的 Web 数据抓取功能。

Related MCP server: Firecrawl MCP Server

文档

有关该项目的详细内容，请参阅以下文档：

迁移计划- 从 Firecrawl 迁移到 Crawl4AI 的详细计划
增强架构——具有云提供商灵活性的多租户架构
实施指南- 技术实施细节和代码示例
代码库简化——有关代码简化和最佳实践的详细信息

特征

Web数据采集

🌐单个网页抓取：从单个网页中提取内容
🕸️ Web 爬取：爬取具有可配置深度和页面限制的网站
🗺️ URL 发现：从起点映射和发现 URL
🕸️异步爬取：高效爬取整个网站

内容处理

🔍深入研究：跨多个页面进行全面研究
📊结构化数据提取：使用 CSS 选择器或基于 LLM 的提取来提取特定数据
🔎内容搜索：搜索之前抓取的内容

集成与安全

🔄 MCP 集成：与 MCP 客户端（Claude Desktop 等）无缝集成
🔒 OAuth 身份验证：通过适当的授权实现安全访问
🔒身份验证选项：通过 OAuth 或 API 密钥（Bearer 令牌）进行安全访问
⚡高性能：针对速度和效率进行了优化

项目结构

crawl4ai-mcp/
├── src/
│   ├── index.ts               # Main entry point with OAuth provider setup
│   ├── auth-handler.ts        # Authentication handler
│   ├── mcp-server.ts          # MCP server implementation
│   ├── crawl4ai-adapter.ts    # Adapter for Crawl4AI API
│   ├── tool-schemas/          # MCP tool schema definitions
│   │   └── [...].ts           # Tool schemas
│   ├── handlers/
│   │   ├── crawl.ts           # Web crawling implementation
│   │   ├── search.ts          # Search functionality
│   │   └── extract.ts         # Content extraction
│   └── utils/                 # Utility functions
├── tests/                     # Test cases
├── .github/                   # GitHub configuration
├── wrangler.toml              # CloudFlare Workers configuration
├── tsconfig.json              # TypeScript configuration
├── package.json               # Node.js dependencies
└── README.md                  # Project documentation

入门

先决条件

Node.js （v18 或更高版本）
npm
Wrangler （CloudFlare Workers CLI）
CloudFlare 帐户

安装

克隆存储库：

git clone https://github.com/BjornMelin/crawl4ai-mcp-server.git
cd crawl4ai-mcp-server

安装依赖项：
```
npm install
```
设置 CloudFlare KV 命名空间：
```
wrangler kv:namespace create CRAWL_DATA
```

使用 KV 命名空间 ID 更新wrangler.toml ：

kv_namespaces = [
  { binding = "CRAWL_DATA", id = "your-namespace-id" }
]

发展

本地开发

启动开发服务器：
```
npm run dev
```
服务器将在http://localhost:8787 上可用

部署

部署到 CloudFlare Workers：
```
npm run deploy
```
您的服务器将在分配给您部署的工作者的 CloudFlare Workers URL 上可用。

与 MCP 客户端一起使用

该服务器实现了模型上下文协议，允许人工智能助手访问其工具。

验证

使用 workers-oauth-provider 实现 OAuth 身份验证
使用 Bearer 令牌添加 API 密钥身份验证
创建登录页面和令牌管理

连接到 MCP 客户端

使用分配给您部署的 Worker 的 CloudFlare Workers URL
在 Claude Desktop 或其他 MCP 客户端中，将此服务器添加为工具源

可用工具

crawl ：从起始 URL 抓取网页
getCrawl ：通过 ID 检索爬取数据
listCrawls ：列出所有爬网或按域过滤
search ：通过查询搜索索引文档
extract ：从 URL 中提取结构化内容

配置

可以通过修改wrangler.toml中的环境变量来配置服务器：

MAX_CRAWL_DEPTH ：网页爬取的最大深度（默认值：3）
MAX_CRAWL_PAGES ：抓取的最大页面数（默认值：100）
API_VERSION ：API 版本字符串（默认值：“v1”）
OAUTH_CLIENT_ID ：用于身份验证的 OAuth 客户端 ID
OAUTH_CLIENT_SECRET ：用于身份验证的 OAuth 客户端密钥

路线图

该项目的开发考虑了以下因素：

项目设置和配置：CloudFlare Worker 设置、TypeScript 配置
MCP 服务器和工具模式：使用工具定义实现 MCP 服务器
Crawl4AI 适配器：与 Crawl4AI 功能集成
OAuth 身份验证：安全身份验证实现
性能优化：提高速度和可靠性
高级提取功能：提高结构化数据提取能力

贡献

欢迎贡献代码！在开始开发功能或修复错误之前，请先查看未解决的问题或创建新的问题。请参阅贡献指南，了解详细指南。

支持

如果您遇到问题或有疑问：

在 GitHub 存储库上打开一个问题
查看Crawl4AI 文档
参考模型上下文协议规范

如何引用

如果您在研究或项目中使用 Crawl4AI MCP 服务器，请使用以下 BibTeX 条目引用它：

@software{crawl4ai_mcp_2025,
  author = {Melin, Bjorn},
  title = {Crawl4AI MCP Server: High-performance Web Crawling for AI Assistants},
  url = {https://github.com/BjornMelin/crawl4ai-mcp-server},
  version = {1.0.0},
  year = {2025},
  month = {5}
}

执照

麻省理工学院

This server cannot be installed

F

license - not found

-

quality - not tested

C

maintenance

How are these scores calculated?

Resources

GitHub Repository

Need Help?

Related Servers

Crawl4AI MCP Server