Crawl4AI MCP Server

Integrations

  • Serves as the deployment platform for the MCP server, enabling the service to run on CloudFlare's edge network

⚠️ AVISO

SERVIDOR MCP ACTUALMENTE EN DESARROLLO
NO LISTO PARA USO EN PRODUCCIÓN
SE ACTUALIZARÁ CUANDO ESTÉ EN FUNCIONAMIENTO

Servidor MCP de Crawl4AI

Servidor MCP de alto rendimiento para Crawl4AI: permite que los asistentes de IA accedan al web scraping, el rastreo y la investigación profunda mediante el Protocolo de Contexto de Modelo. ¡Más rápido y eficiente que FireCrawl!

Descripción general

Este proyecto implementa un servidor MCP (Protocolo de Contexto de Modelo) personalizado que se integra con Crawl4AI, una biblioteca de código abierto para el rastreo y el raspado web. El servidor se implementa como un servidor MCP remoto en CloudFlare Workers, lo que permite a asistentes de IA como Claude acceder a las potentes capacidades de raspado web de Crawl4AI.

Documentación

Para obtener detalles completos sobre este proyecto, consulte la siguiente documentación:

Características

Adquisición de datos web

  • 🌐 Extracción de páginas web individuales : extrae contenido de páginas web individuales
  • 🕸️ Rastreo web : rastrea sitios web con profundidad y límites de página configurables
  • 🗺️ Descubrimiento de URL : mapea y descubre URL desde un punto de partida
  • 🕸️ Rastreo asincrónico : rastree sitios web completos de manera eficiente

Procesamiento de contenido

  • 🔍 Investigación profunda : realice una investigación exhaustiva en varias páginas
  • 📊 Extracción de datos estructurados : extraiga datos específicos utilizando selectores CSS o extracción basada en LLM
  • 🔎 Búsqueda de contenido : busca en contenido rastreado previamente

Integración y seguridad

  • 🔄 Integración con MCP : Integración perfecta con clientes MCP (Claude Desktop, etc.)
  • Autenticación OAuth : acceso seguro con la autorización adecuada
  • 🔒 Opciones de autenticación : Acceso seguro a través de OAuth o clave API (token portador)
  • Alto rendimiento : optimizado para velocidad y eficiencia

Estructura del proyecto

crawl4ai-mcp/ ├── src/ │ ├── index.ts # Main entry point with OAuth provider setup │ ├── auth-handler.ts # Authentication handler │ ├── mcp-server.ts # MCP server implementation │ ├── crawl4ai-adapter.ts # Adapter for Crawl4AI API │ ├── tool-schemas/ # MCP tool schema definitions │ │ └── [...].ts # Tool schemas │ ├── handlers/ │ │ ├── crawl.ts # Web crawling implementation │ │ ├── search.ts # Search functionality │ │ └── extract.ts # Content extraction │ └── utils/ # Utility functions ├── tests/ # Test cases ├── .github/ # GitHub configuration ├── wrangler.toml # CloudFlare Workers configuration ├── tsconfig.json # TypeScript configuration ├── package.json # Node.js dependencies └── README.md # Project documentation

Empezando

Prerrequisitos

  • Node.js (v18 o superior)
  • npm
  • Wrangler (CLI de trabajadores de CloudFlare)
  • Una cuenta de CloudFlare

Instalación

  1. Clonar el repositorio:
    git clone https://github.com/BjornMelin/crawl4ai-mcp-server.git cd crawl4ai-mcp-server
  2. Instalar dependencias:
    npm install
  3. Configurar el espacio de nombres KV de CloudFlare:
    wrangler kv:namespace create CRAWL_DATA
  4. Actualice wrangler.toml con el ID del espacio de nombres KV:
    kv_namespaces = [ { binding = "CRAWL_DATA", id = "your-namespace-id" } ]

Desarrollo

Desarrollo local

  1. Inicie el servidor de desarrollo:
    npm run dev
  2. El servidor estará disponible en http://localhost:8787

Despliegue

  1. Implementar en trabajadores de CloudFlare:
    npm run deploy
  2. Su servidor estará disponible en la URL de CloudFlare Workers asignada a su trabajador implementado.

Uso con clientes MCP

Este servidor implementa el Protocolo de Contexto de Modelo, lo que permite a los asistentes de IA acceder a sus herramientas.

Autenticación

  • Implementar la autenticación OAuth con workers-oauth-provider
  • Agregar autenticación de clave API mediante tokens de portador
  • Crear página de inicio de sesión y gestión de tokens

Conexión a un cliente MCP

  1. Utilice la URL de CloudFlare Workers asignada a su trabajador implementado
  2. En Claude Desktop u otros clientes MCP, agregue este servidor como fuente de herramientas

Herramientas disponibles

  • crawl : Rastrear páginas web desde una URL de inicio
  • getCrawl : recupera datos de rastreo por ID
  • listCrawls : enumera todos los rastreos o filtra por dominio
  • search : Buscar documentos indexados por consulta
  • extract : Extraer contenido estructurado de una URL

Configuración

El servidor se puede configurar modificando las variables de entorno en wrangler.toml :

  • MAX_CRAWL_DEPTH : Profundidad máxima para el rastreo web (predeterminado: 3)
  • MAX_CRAWL_PAGES : Máximo de páginas a rastrear (predeterminado: 100)
  • API_VERSION : cadena de versión de la API (predeterminada: "v1")
  • OAUTH_CLIENT_ID : ID de cliente OAuth para autenticación
  • OAUTH_CLIENT_SECRET : Secreto de cliente OAuth para autenticación

Hoja de ruta

El proyecto se está desarrollando con estos componentes en mente:

  1. Configuración y configuración del proyecto : configuración de CloudFlare Worker, configuración de TypeScript
  2. Esquemas de herramientas y servidor MCP : implementación del servidor MCP con definiciones de herramientas
  3. Adaptador Crawl4AI : Integración con la funcionalidad Crawl4AI
  4. Autenticación OAuth : Implementación de autenticación segura
  5. Optimizaciones de rendimiento : mejora de la velocidad y la confiabilidad
  6. Funciones de extracción avanzadas : mejora de las capacidades de extracción de datos estructurados

Contribuyendo

¡Agradecemos sus contribuciones! Por favor, revise los problemas abiertos o cree uno nuevo antes de empezar a trabajar en una función o corrección de errores. Consulte las directrices de contribución para obtener información detallada.

Apoyo

Si encuentra problemas o tiene preguntas:

Cómo citar

Si utiliza Crawl4AI MCP Server en sus investigaciones o proyectos, cítelo utilizando la siguiente entrada BibTeX:

@software{crawl4ai_mcp_2025, author = {Melin, Bjorn}, title = {Crawl4AI MCP Server: High-performance Web Crawling for AI Assistants}, url = {https://github.com/BjornMelin/crawl4ai-mcp-server}, version = {1.0.0}, year = {2025}, month = {5} }

Licencia

Instituto Tecnológico de Massachusetts (MIT)

-
security - not tested
F
license - not found
-
quality - not tested

remote-capable server

The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.

Servidor de alto rendimiento que permite a los asistentes de IA acceder a capacidades de raspado web, rastreo e investigación profunda a través del Protocolo de contexto de modelo.

  1. Servidor MCP de Crawl4AI
    1. Descripción general
    2. Documentación
    3. Características
    4. Estructura del proyecto
    5. Empezando
    6. Desarrollo
    7. Despliegue
    8. Uso con clientes MCP
    9. Configuración
    10. Hoja de ruta
    11. Contribuyendo
    12. Apoyo
    13. Cómo citar
    14. Licencia

Related MCP Servers

  • A
    security
    A
    license
    A
    quality
    A production-ready Model Context Protocol server that enables language models to leverage AI-powered web scraping capabilities, offering tools for transforming webpages to markdown, extracting structured data, and executing AI-powered web searches.
    Last updated -
    3
    16
    Python
    MIT License
    • Apple
  • -
    security
    A
    license
    -
    quality
    A Model Context Protocol server that enables AI assistants to perform advanced web scraping, crawling, searching, and data extraction through the Firecrawl API.
    Last updated -
    15,275
    MIT License
    • Apple
    • Linux
  • A
    security
    F
    license
    A
    quality
    A Model Context Protocol server that enables AI assistants to perform real-time web searches, retrieving up-to-date information from the internet via a Crawler API.
    Last updated -
    1
    44
    8
    JavaScript
    • Apple
    • Linux
  • -
    security
    A
    license
    -
    quality
    A Model Context Protocol server that provides real-time web search capabilities to AI assistants through pluggable search providers, currently integrated with the Brave Search API.
    Last updated -
    3
    TypeScript
    MIT License

View all related MCP servers

ID: qxqai2h895