Skip to main content
Glama

⚠️ 注意

MCP 服务器目前正在开发中
尚未准备好投入生产
将在运行时更新

Crawl4AI MCP 服务器

🚀 Crawl4AI 的高性能 MCP 服务器 - 使 AI 助手能够通过模型上下文协议 (MCP) 进行网页抓取、爬取和深度研究。比 FireCrawl 更快、更高效!

概述

该项目实现了一个自定义的模型上下文协议 (MCP) 服务器,该服务器与开源 Web 数据抓取和爬取库 Crawl4AI 集成。该服务器作为 CloudFlare Workers 上的远程 MCP 服务器部署,允许像 Claude 这样的 AI 助手访问 Crawl4AI 强大的 Web 数据抓取功能。

Related MCP server: Firecrawl MCP Server

文档

有关该项目的详细内容,请参阅以下文档:

特征

Web数据采集

  • 🌐单个网页抓取:从单个网页中提取内容

  • 🕸️ Web 爬取:爬取具有可配置深度和页面限制的网站

  • 🗺️ URL 发现:从起点映射和发现 URL

  • 🕸️异步爬取:高效爬取整个网站

内容处理

  • 🔍深入研究:跨多个页面进行全面研究

  • 📊结构化数据提取:使用 CSS 选择器或基于 LLM 的提取来提取特定数据

  • 🔎内容搜索:搜索之前抓取的内容

集成与安全

  • 🔄 MCP 集成:与 MCP 客户端(Claude Desktop 等)无缝集成

  • 🔒 OAuth 身份验证:通过适当的授权实现安全访问

  • 🔒身份验证选项:通过 OAuth 或 API 密钥(Bearer 令牌)进行安全访问

  • 高性能:针对速度和效率进行了优化

项目结构

crawl4ai-mcp/ ├── src/ │ ├── index.ts # Main entry point with OAuth provider setup │ ├── auth-handler.ts # Authentication handler │ ├── mcp-server.ts # MCP server implementation │ ├── crawl4ai-adapter.ts # Adapter for Crawl4AI API │ ├── tool-schemas/ # MCP tool schema definitions │ │ └── [...].ts # Tool schemas │ ├── handlers/ │ │ ├── crawl.ts # Web crawling implementation │ │ ├── search.ts # Search functionality │ │ └── extract.ts # Content extraction │ └── utils/ # Utility functions ├── tests/ # Test cases ├── .github/ # GitHub configuration ├── wrangler.toml # CloudFlare Workers configuration ├── tsconfig.json # TypeScript configuration ├── package.json # Node.js dependencies └── README.md # Project documentation

入门

先决条件

  • Node.js (v18 或更高版本)

  • npm

  • Wrangler (CloudFlare Workers CLI)

  • CloudFlare 帐户

安装

  1. 克隆存储库:

    git clone https://github.com/BjornMelin/crawl4ai-mcp-server.git cd crawl4ai-mcp-server
  2. 安装依赖项:

    npm install
  3. 设置 CloudFlare KV 命名空间:

    wrangler kv:namespace create CRAWL_DATA
  4. 使用 KV 命名空间 ID 更新wrangler.toml

    kv_namespaces = [ { binding = "CRAWL_DATA", id = "your-namespace-id" } ]

发展

本地开发

  1. 启动开发服务器:

    npm run dev
  2. 服务器将在http://localhost:8787 上可用

部署

  1. 部署到 CloudFlare Workers:

    npm run deploy
  2. 您的服务器将在分配给您部署的工作者的 CloudFlare Workers URL 上可用。

与 MCP 客户端一起使用

该服务器实现了模型上下文协议,允许人工智能助手访问其工具。

验证

  • 使用 workers-oauth-provider 实现 OAuth 身份验证

  • 使用 Bearer 令牌添加 API 密钥身份验证

  • 创建登录页面和令牌管理

连接到 MCP 客户端

  1. 使用分配给您部署的 Worker 的 CloudFlare Workers URL

  2. 在 Claude Desktop 或其他 MCP 客户端中,将此服务器添加为工具源

可用工具

  • crawl :从起始 URL 抓取网页

  • getCrawl :通过 ID 检索爬取数据

  • listCrawls :列出所有爬网或按域过滤

  • search :通过查询搜索索引文档

  • extract :从 URL 中提取结构化内容

配置

可以通过修改wrangler.toml中的环境变量来配置服务器:

  • MAX_CRAWL_DEPTH :网页爬取的最大深度(默认值:3)

  • MAX_CRAWL_PAGES :抓取的最大页面数(默认值:100)

  • API_VERSION :API 版本字符串(默认值:“v1”)

  • OAUTH_CLIENT_ID :用于身份验证的 OAuth 客户端 ID

  • OAUTH_CLIENT_SECRET :用于身份验证的 OAuth 客户端密钥

路线图

该项目的开发考虑了以下因素:

  1. 项目设置和配置:CloudFlare Worker 设置、TypeScript 配置

  2. MCP 服务器和工具模式:使用工具定义实现 MCP 服务器

  3. Crawl4AI 适配器:与 Crawl4AI 功能集成

  4. OAuth 身份验证:安全身份验证实现

  5. 性能优化:提高速度和可靠性

  6. 高级提取功能:提高结构化数据提取能力

贡献

欢迎贡献代码!在开始开发功能或修复错误之前,请先查看未解决的问题或创建新的问题。请参阅贡献指南,了解详细指南。

支持

如果您遇到问题或有疑问:

如何引用

如果您在研究或项目中使用 Crawl4AI MCP 服务器,请使用以下 BibTeX 条目引用它:

@software{crawl4ai_mcp_2025, author = {Melin, Bjorn}, title = {Crawl4AI MCP Server: High-performance Web Crawling for AI Assistants}, url = {https://github.com/BjornMelin/crawl4ai-mcp-server}, version = {1.0.0}, year = {2025}, month = {5} }

执照

麻省理工学院

-
security - not tested
F
license - not found
-
quality - not tested

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/BjornMelin/crawl4ai-mcp-server'

If you have feedback or need assistance with the MCP directory API, please join our Discord server