Crawl4AI MCP Server

Integrations

  • Serves as the deployment platform for the MCP server, enabling the service to run on CloudFlare's edge network

⚠️ 注意

MCP 服务器目前正在开发中
尚未准备好投入生产
将在运行时更新

Crawl4AI MCP 服务器

🚀 Crawl4AI 的高性能 MCP 服务器 - 使 AI 助手能够通过模型上下文协议 (MCP) 进行网页抓取、爬取和深度研究。比 FireCrawl 更快、更高效!

概述

该项目实现了一个自定义的模型上下文协议 (MCP) 服务器,该服务器与开源 Web 数据抓取和爬取库 Crawl4AI 集成。该服务器作为 CloudFlare Workers 上的远程 MCP 服务器部署,允许像 Claude 这样的 AI 助手访问 Crawl4AI 强大的 Web 数据抓取功能。

文档

有关该项目的详细内容,请参阅以下文档:

特征

Web数据采集

  • 🌐单个网页抓取:从单个网页中提取内容
  • 🕸️ Web 爬取:爬取具有可配置深度和页面限制的网站
  • 🗺️ URL 发现:从起点映射和发现 URL
  • 🕸️异步爬取:高效爬取整个网站

内容处理

  • 🔍深入研究:跨多个页面进行全面研究
  • 📊结构化数据提取:使用 CSS 选择器或基于 LLM 的提取来提取特定数据
  • 🔎内容搜索:搜索之前抓取的内容

集成与安全

  • 🔄 MCP 集成:与 MCP 客户端(Claude Desktop 等)无缝集成
  • 🔒 OAuth 身份验证:通过适当的授权实现安全访问
  • 🔒身份验证选项:通过 OAuth 或 API 密钥(Bearer 令牌)进行安全访问
  • 高性能:针对速度和效率进行了优化

项目结构

crawl4ai-mcp/ ├── src/ │ ├── index.ts # Main entry point with OAuth provider setup │ ├── auth-handler.ts # Authentication handler │ ├── mcp-server.ts # MCP server implementation │ ├── crawl4ai-adapter.ts # Adapter for Crawl4AI API │ ├── tool-schemas/ # MCP tool schema definitions │ │ └── [...].ts # Tool schemas │ ├── handlers/ │ │ ├── crawl.ts # Web crawling implementation │ │ ├── search.ts # Search functionality │ │ └── extract.ts # Content extraction │ └── utils/ # Utility functions ├── tests/ # Test cases ├── .github/ # GitHub configuration ├── wrangler.toml # CloudFlare Workers configuration ├── tsconfig.json # TypeScript configuration ├── package.json # Node.js dependencies └── README.md # Project documentation

入门

先决条件

  • Node.js (v18 或更高版本)
  • npm
  • Wrangler (CloudFlare Workers CLI)
  • CloudFlare 帐户

安装

  1. 克隆存储库:
    git clone https://github.com/BjornMelin/crawl4ai-mcp-server.git cd crawl4ai-mcp-server
  2. 安装依赖项:
    npm install
  3. 设置 CloudFlare KV 命名空间:
    wrangler kv:namespace create CRAWL_DATA
  4. 使用 KV 命名空间 ID 更新wrangler.toml
    kv_namespaces = [ { binding = "CRAWL_DATA", id = "your-namespace-id" } ]

发展

本地开发

  1. 启动开发服务器:
    npm run dev
  2. 服务器将在http://localhost:8787 上可用

部署

  1. 部署到 CloudFlare Workers:
    npm run deploy
  2. 您的服务器将在分配给您部署的工作者的 CloudFlare Workers URL 上可用。

与 MCP 客户端一起使用

该服务器实现了模型上下文协议,允许人工智能助手访问其工具。

验证

  • 使用 workers-oauth-provider 实现 OAuth 身份验证
  • 使用 Bearer 令牌添加 API 密钥身份验证
  • 创建登录页面和令牌管理

连接到 MCP 客户端

  1. 使用分配给您部署的 Worker 的 CloudFlare Workers URL
  2. 在 Claude Desktop 或其他 MCP 客户端中,将此服务器添加为工具源

可用工具

  • crawl :从起始 URL 抓取网页
  • getCrawl :通过 ID 检索爬取数据
  • listCrawls :列出所有爬网或按域过滤
  • search :通过查询搜索索引文档
  • extract :从 URL 中提取结构化内容

配置

可以通过修改wrangler.toml中的环境变量来配置服务器:

  • MAX_CRAWL_DEPTH :网页爬取的最大深度(默认值:3)
  • MAX_CRAWL_PAGES :抓取的最大页面数(默认值:100)
  • API_VERSION :API 版本字符串(默认值:“v1”)
  • OAUTH_CLIENT_ID :用于身份验证的 OAuth 客户端 ID
  • OAUTH_CLIENT_SECRET :用于身份验证的 OAuth 客户端密钥

路线图

该项目的开发考虑了以下因素:

  1. 项目设置和配置:CloudFlare Worker 设置、TypeScript 配置
  2. MCP 服务器和工具模式:使用工具定义实现 MCP 服务器
  3. Crawl4AI 适配器:与 Crawl4AI 功能集成
  4. OAuth 身份验证:安全身份验证实现
  5. 性能优化:提高速度和可靠性
  6. 高级提取功能:提高结构化数据提取能力

贡献

欢迎贡献代码!在开始开发功能或修复错误之前,请先查看未解决的问题或创建新的问题。请参阅贡献指南,了解详细指南。

支持

如果您遇到问题或有疑问:

如何引用

如果您在研究或项目中使用 Crawl4AI MCP 服务器,请使用以下 BibTeX 条目引用它:

@software{crawl4ai_mcp_2025, author = {Melin, Bjorn}, title = {Crawl4AI MCP Server: High-performance Web Crawling for AI Assistants}, url = {https://github.com/BjornMelin/crawl4ai-mcp-server}, version = {1.0.0}, year = {2025}, month = {5} }

执照

麻省理工学院

-
security - not tested
F
license - not found
-
quality - not tested

remote-capable server

The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.

高性能服务器,使 AI 助手能够通过模型上下文协议访问网络抓取、爬行和深度研究功能。

  1. Crawl4AI MCP 服务器
    1. 概述
    2. 文档
    3. 特征
    4. 项目结构
    5. 入门
    6. 发展
    7. 部署
    8. 与 MCP 客户端一起使用
    9. 配置
    10. 路线图
    11. 贡献
    12. 支持
    13. 如何引用
    14. 执照

Related MCP Servers

  • A
    security
    A
    license
    A
    quality
    A production-ready Model Context Protocol server that enables language models to leverage AI-powered web scraping capabilities, offering tools for transforming webpages to markdown, extracting structured data, and executing AI-powered web searches.
    Last updated -
    3
    16
    Python
    MIT License
    • Apple
  • -
    security
    A
    license
    -
    quality
    A Model Context Protocol server that enables AI assistants to perform advanced web scraping, crawling, searching, and data extraction through the Firecrawl API.
    Last updated -
    15,275
    MIT License
    • Apple
    • Linux
  • A
    security
    F
    license
    A
    quality
    A Model Context Protocol server that enables AI assistants to perform real-time web searches, retrieving up-to-date information from the internet via a Crawler API.
    Last updated -
    1
    44
    8
    JavaScript
    • Apple
    • Linux
  • -
    security
    A
    license
    -
    quality
    A Model Context Protocol server that provides real-time web search capabilities to AI assistants through pluggable search providers, currently integrated with the Brave Search API.
    Last updated -
    3
    TypeScript
    MIT License

View all related MCP servers

ID: qxqai2h895