Integrations
Serves as the deployment platform for the MCP server, enabling the service to run on CloudFlare's edge network
⚠️ 注意
MCP 服务器目前正在开发中
尚未准备好投入生产
将在运行时更新
Crawl4AI MCP 服务器
🚀 Crawl4AI 的高性能 MCP 服务器 - 使 AI 助手能够通过模型上下文协议 (MCP) 进行网页抓取、爬取和深度研究。比 FireCrawl 更快、更高效!
概述
该项目实现了一个自定义的模型上下文协议 (MCP) 服务器,该服务器与开源 Web 数据抓取和爬取库 Crawl4AI 集成。该服务器作为 CloudFlare Workers 上的远程 MCP 服务器部署,允许像 Claude 这样的 AI 助手访问 Crawl4AI 强大的 Web 数据抓取功能。
文档
有关该项目的详细内容,请参阅以下文档:
特征
Web数据采集
- 🌐单个网页抓取:从单个网页中提取内容
- 🕸️ Web 爬取:爬取具有可配置深度和页面限制的网站
- 🗺️ URL 发现:从起点映射和发现 URL
- 🕸️异步爬取:高效爬取整个网站
内容处理
- 🔍深入研究:跨多个页面进行全面研究
- 📊结构化数据提取:使用 CSS 选择器或基于 LLM 的提取来提取特定数据
- 🔎内容搜索:搜索之前抓取的内容
集成与安全
- 🔄 MCP 集成:与 MCP 客户端(Claude Desktop 等)无缝集成
- 🔒 OAuth 身份验证:通过适当的授权实现安全访问
- 🔒身份验证选项:通过 OAuth 或 API 密钥(Bearer 令牌)进行安全访问
- ⚡高性能:针对速度和效率进行了优化
项目结构
Copy
入门
先决条件
安装
- 克隆存储库:Copy
- 安装依赖项:Copy
- 设置 CloudFlare KV 命名空间:Copy
- 使用 KV 命名空间 ID 更新
wrangler.toml
:Copy
发展
本地开发
- 启动开发服务器:Copy
- 服务器将在http://localhost:8787 上可用
部署
- 部署到 CloudFlare Workers:Copy
- 您的服务器将在分配给您部署的工作者的 CloudFlare Workers URL 上可用。
与 MCP 客户端一起使用
该服务器实现了模型上下文协议,允许人工智能助手访问其工具。
验证
- 使用 workers-oauth-provider 实现 OAuth 身份验证
- 使用 Bearer 令牌添加 API 密钥身份验证
- 创建登录页面和令牌管理
连接到 MCP 客户端
- 使用分配给您部署的 Worker 的 CloudFlare Workers URL
- 在 Claude Desktop 或其他 MCP 客户端中,将此服务器添加为工具源
可用工具
crawl
:从起始 URL 抓取网页getCrawl
:通过 ID 检索爬取数据listCrawls
:列出所有爬网或按域过滤search
:通过查询搜索索引文档extract
:从 URL 中提取结构化内容
配置
可以通过修改wrangler.toml
中的环境变量来配置服务器:
MAX_CRAWL_DEPTH
:网页爬取的最大深度(默认值:3)MAX_CRAWL_PAGES
:抓取的最大页面数(默认值:100)API_VERSION
:API 版本字符串(默认值:“v1”)OAUTH_CLIENT_ID
:用于身份验证的 OAuth 客户端 IDOAUTH_CLIENT_SECRET
:用于身份验证的 OAuth 客户端密钥
路线图
该项目的开发考虑了以下因素:
- 项目设置和配置:CloudFlare Worker 设置、TypeScript 配置
- MCP 服务器和工具模式:使用工具定义实现 MCP 服务器
- Crawl4AI 适配器:与 Crawl4AI 功能集成
- OAuth 身份验证:安全身份验证实现
- 性能优化:提高速度和可靠性
- 高级提取功能:提高结构化数据提取能力
贡献
欢迎贡献代码!在开始开发功能或修复错误之前,请先查看未解决的问题或创建新的问题。请参阅贡献指南,了解详细指南。
支持
如果您遇到问题或有疑问:
- 在 GitHub 存储库上打开一个问题
- 查看Crawl4AI 文档
- 参考模型上下文协议规范
如何引用
如果您在研究或项目中使用 Crawl4AI MCP 服务器,请使用以下 BibTeX 条目引用它:
Copy
执照
Related MCP Servers
- AsecurityAlicenseAqualityA production-ready Model Context Protocol server that enables language models to leverage AI-powered web scraping capabilities, offering tools for transforming webpages to markdown, extracting structured data, and executing AI-powered web searches.Last updated -316PythonMIT License
- -securityAlicense-qualityA Model Context Protocol server that enables AI assistants to perform advanced web scraping, crawling, searching, and data extraction through the Firecrawl API.Last updated -15,275MIT License
- AsecurityFlicenseAqualityA Model Context Protocol server that enables AI assistants to perform real-time web searches, retrieving up-to-date information from the internet via a Crawler API.Last updated -1448JavaScript
- -securityAlicense-qualityA Model Context Protocol server that provides real-time web search capabilities to AI assistants through pluggable search providers, currently integrated with the Brave Search API.Last updated -3TypeScriptMIT License