Crawl4AI MCP Server
⚠️ 注意
MCP 服务器目前正在开发中
尚未准备好投入生产
将在运行时更新
Crawl4AI MCP 服务器
🚀 Crawl4AI 的高性能 MCP 服务器 - 使 AI 助手能够通过模型上下文协议 (MCP) 进行网页抓取、爬取和深度研究。比 FireCrawl 更快、更高效!
概述
该项目实现了一个自定义的模型上下文协议 (MCP) 服务器,该服务器与开源 Web 数据抓取和爬取库 Crawl4AI 集成。该服务器作为 CloudFlare Workers 上的远程 MCP 服务器部署,允许像 Claude 这样的 AI 助手访问 Crawl4AI 强大的 Web 数据抓取功能。
Related MCP server: Firecrawl MCP Server
文档
有关该项目的详细内容,请参阅以下文档:
特征
Web数据采集
🌐单个网页抓取:从单个网页中提取内容
🕸️ Web 爬取:爬取具有可配置深度和页面限制的网站
🗺️ URL 发现:从起点映射和发现 URL
🕸️异步爬取:高效爬取整个网站
内容处理
🔍深入研究:跨多个页面进行全面研究
📊结构化数据提取:使用 CSS 选择器或基于 LLM 的提取来提取特定数据
🔎内容搜索:搜索之前抓取的内容
集成与安全
🔄 MCP 集成:与 MCP 客户端(Claude Desktop 等)无缝集成
🔒 OAuth 身份验证:通过适当的授权实现安全访问
🔒身份验证选项:通过 OAuth 或 API 密钥(Bearer 令牌)进行安全访问
⚡高性能:针对速度和效率进行了优化
项目结构
crawl4ai-mcp/
├── src/
│ ├── index.ts # Main entry point with OAuth provider setup
│ ├── auth-handler.ts # Authentication handler
│ ├── mcp-server.ts # MCP server implementation
│ ├── crawl4ai-adapter.ts # Adapter for Crawl4AI API
│ ├── tool-schemas/ # MCP tool schema definitions
│ │ └── [...].ts # Tool schemas
│ ├── handlers/
│ │ ├── crawl.ts # Web crawling implementation
│ │ ├── search.ts # Search functionality
│ │ └── extract.ts # Content extraction
│ └── utils/ # Utility functions
├── tests/ # Test cases
├── .github/ # GitHub configuration
├── wrangler.toml # CloudFlare Workers configuration
├── tsconfig.json # TypeScript configuration
├── package.json # Node.js dependencies
└── README.md # Project documentation入门
先决条件
安装
克隆存储库:
git clone https://github.com/BjornMelin/crawl4ai-mcp-server.git cd crawl4ai-mcp-server安装依赖项:
npm install设置 CloudFlare KV 命名空间:
wrangler kv:namespace create CRAWL_DATA使用 KV 命名空间 ID 更新
wrangler.toml:kv_namespaces = [ { binding = "CRAWL_DATA", id = "your-namespace-id" } ]
发展
本地开发
启动开发服务器:
npm run dev服务器将在http://localhost:8787 上可用
部署
部署到 CloudFlare Workers:
npm run deploy您的服务器将在分配给您部署的工作者的 CloudFlare Workers URL 上可用。
与 MCP 客户端一起使用
该服务器实现了模型上下文协议,允许人工智能助手访问其工具。
验证
使用 workers-oauth-provider 实现 OAuth 身份验证
使用 Bearer 令牌添加 API 密钥身份验证
创建登录页面和令牌管理
连接到 MCP 客户端
使用分配给您部署的 Worker 的 CloudFlare Workers URL
在 Claude Desktop 或其他 MCP 客户端中,将此服务器添加为工具源
可用工具
crawl:从起始 URL 抓取网页getCrawl:通过 ID 检索爬取数据listCrawls:列出所有爬网或按域过滤search:通过查询搜索索引文档extract:从 URL 中提取结构化内容
配置
可以通过修改wrangler.toml中的环境变量来配置服务器:
MAX_CRAWL_DEPTH:网页爬取的最大深度(默认值:3)MAX_CRAWL_PAGES:抓取的最大页面数(默认值:100)API_VERSION:API 版本字符串(默认值:“v1”)OAUTH_CLIENT_ID:用于身份验证的 OAuth 客户端 IDOAUTH_CLIENT_SECRET:用于身份验证的 OAuth 客户端密钥
路线图
该项目的开发考虑了以下因素:
项目设置和配置:CloudFlare Worker 设置、TypeScript 配置
MCP 服务器和工具模式:使用工具定义实现 MCP 服务器
Crawl4AI 适配器:与 Crawl4AI 功能集成
OAuth 身份验证:安全身份验证实现
性能优化:提高速度和可靠性
高级提取功能:提高结构化数据提取能力
贡献
欢迎贡献代码!在开始开发功能或修复错误之前,请先查看未解决的问题或创建新的问题。请参阅贡献指南,了解详细指南。
支持
如果您遇到问题或有疑问:
在 GitHub 存储库上打开一个问题
如何引用
如果您在研究或项目中使用 Crawl4AI MCP 服务器,请使用以下 BibTeX 条目引用它:
@software{crawl4ai_mcp_2025,
author = {Melin, Bjorn},
title = {Crawl4AI MCP Server: High-performance Web Crawling for AI Assistants},
url = {https://github.com/BjornMelin/crawl4ai-mcp-server},
version = {1.0.0},
year = {2025},
month = {5}
}执照
Appeared in Searches
- Web search and data extraction capabilities for AI assistants
- A guide to conducting thorough web-based research
- A service for downloading files from MEGA cloud storage
- Enabling deep research modes in AI tools like Kimi and ChatGPT
- A server for finding rental listings on platforms like Facebook, Craigslist, Zillow, and Realtor.com
Latest Blog Posts
MCP directory API
We provide all the information about MCP servers via our MCP API.
curl -X GET 'https://glama.ai/api/mcp/v1/servers/BjornMelin/crawl4ai-mcp-server'
If you have feedback or need assistance with the MCP directory API, please join our Discord server