⚠️ AVISO

SERVIDOR MCP ACTUALMENTE EN DESARROLLO
NO LISTO PARA USO EN PRODUCCIÓN
SE ACTUALIZARÁ CUANDO ESTÉ EN FUNCIONAMIENTO

Servidor MCP de Crawl4AI

Servidor MCP de alto rendimiento para Crawl4AI: permite que los asistentes de IA accedan al web scraping, el rastreo y la investigación profunda mediante el Protocolo de Contexto de Modelo. ¡Más rápido y eficiente que FireCrawl!

Descripción general

Este proyecto implementa un servidor MCP (Protocolo de Contexto de Modelo) personalizado que se integra con Crawl4AI, una biblioteca de código abierto para el rastreo y el raspado web. El servidor se implementa como un servidor MCP remoto en CloudFlare Workers, lo que permite a asistentes de IA como Claude acceder a las potentes capacidades de raspado web de Crawl4AI.

Related MCP server: Firecrawl MCP Server

Documentación

Para obtener detalles completos sobre este proyecto, consulte la siguiente documentación:

Plan de migración : plan detallado para migrar de Firecrawl a Crawl4AI
Arquitectura mejorada : arquitectura multiinquilino con flexibilidad del proveedor de nube
Guía de implementación : detalles de implementación técnica y ejemplos de código
Simplificación de la base de código : detalles sobre la simplificación del código y las mejores prácticas implementadas

Características

Adquisición de datos web

🌐 Extracción de páginas web individuales : extrae contenido de páginas web individuales
🕸️ Rastreo web : rastrea sitios web con profundidad y límites de página configurables
🗺️ Descubrimiento de URL : mapea y descubre URL desde un punto de partida
🕸️ Rastreo asincrónico : rastree sitios web completos de manera eficiente

Procesamiento de contenido

🔍 Investigación profunda : realice una investigación exhaustiva en varias páginas
📊 Extracción de datos estructurados : extraiga datos específicos utilizando selectores CSS o extracción basada en LLM
🔎 Búsqueda de contenido : busca en contenido rastreado previamente

Integración y seguridad

🔄 Integración con MCP : Integración perfecta con clientes MCP (Claude Desktop, etc.)
Autenticación OAuth : acceso seguro con la autorización adecuada
🔒 Opciones de autenticación : Acceso seguro a través de OAuth o clave API (token portador)
⚡ Alto rendimiento : optimizado para velocidad y eficiencia

Estructura del proyecto

crawl4ai-mcp/
├── src/
│   ├── index.ts               # Main entry point with OAuth provider setup
│   ├── auth-handler.ts        # Authentication handler
│   ├── mcp-server.ts          # MCP server implementation
│   ├── crawl4ai-adapter.ts    # Adapter for Crawl4AI API
│   ├── tool-schemas/          # MCP tool schema definitions
│   │   └── [...].ts           # Tool schemas
│   ├── handlers/
│   │   ├── crawl.ts           # Web crawling implementation
│   │   ├── search.ts          # Search functionality
│   │   └── extract.ts         # Content extraction
│   └── utils/                 # Utility functions
├── tests/                     # Test cases
├── .github/                   # GitHub configuration
├── wrangler.toml              # CloudFlare Workers configuration
├── tsconfig.json              # TypeScript configuration
├── package.json               # Node.js dependencies
└── README.md                  # Project documentation

Empezando

Prerrequisitos

Node.js (v18 o superior)
npm
Wrangler (CLI de trabajadores de CloudFlare)
Una cuenta de CloudFlare

Instalación

Clonar el repositorio:

git clone https://github.com/BjornMelin/crawl4ai-mcp-server.git
cd crawl4ai-mcp-server

Instalar dependencias:
```
npm install
```
Configurar el espacio de nombres KV de CloudFlare:
```
wrangler kv:namespace create CRAWL_DATA
```

Actualice wrangler.toml con el ID del espacio de nombres KV:

kv_namespaces = [
  { binding = "CRAWL_DATA", id = "your-namespace-id" }
]

Desarrollo

Desarrollo local

Inicie el servidor de desarrollo:
```
npm run dev
```
El servidor estará disponible en http://localhost:8787

Despliegue

Implementar en trabajadores de CloudFlare:
```
npm run deploy
```
Su servidor estará disponible en la URL de CloudFlare Workers asignada a su trabajador implementado.

Uso con clientes MCP

Este servidor implementa el Protocolo de Contexto de Modelo, lo que permite a los asistentes de IA acceder a sus herramientas.

Autenticación

Implementar la autenticación OAuth con workers-oauth-provider
Agregar autenticación de clave API mediante tokens de portador
Crear página de inicio de sesión y gestión de tokens

Conexión a un cliente MCP

Utilice la URL de CloudFlare Workers asignada a su trabajador implementado
En Claude Desktop u otros clientes MCP, agregue este servidor como fuente de herramientas

Herramientas disponibles

crawl : Rastrear páginas web desde una URL de inicio
getCrawl : recupera datos de rastreo por ID
listCrawls : enumera todos los rastreos o filtra por dominio
search : Buscar documentos indexados por consulta
extract : Extraer contenido estructurado de una URL

Configuración

El servidor se puede configurar modificando las variables de entorno en wrangler.toml :

MAX_CRAWL_DEPTH : Profundidad máxima para el rastreo web (predeterminado: 3)
MAX_CRAWL_PAGES : Máximo de páginas a rastrear (predeterminado: 100)
API_VERSION : cadena de versión de la API (predeterminada: "v1")
OAUTH_CLIENT_ID : ID de cliente OAuth para autenticación
OAUTH_CLIENT_SECRET : Secreto de cliente OAuth para autenticación

Hoja de ruta

El proyecto se está desarrollando con estos componentes en mente:

Configuración y configuración del proyecto : configuración de CloudFlare Worker, configuración de TypeScript
Esquemas de herramientas y servidor MCP : implementación del servidor MCP con definiciones de herramientas
Adaptador Crawl4AI : Integración con la funcionalidad Crawl4AI
Autenticación OAuth : Implementación de autenticación segura
Optimizaciones de rendimiento : mejora de la velocidad y la confiabilidad
Funciones de extracción avanzadas : mejora de las capacidades de extracción de datos estructurados

Contribuyendo

¡Agradecemos sus contribuciones! Por favor, revise los problemas abiertos o cree uno nuevo antes de empezar a trabajar en una función o corrección de errores. Consulte las directrices de contribución para obtener información detallada.

Apoyo

Si encuentra problemas o tiene preguntas:

Abrir un problema en el repositorio de GitHub
Consulte la documentación de Crawl4AI
Consulte la especificación del Protocolo de Contexto de Modelo

Cómo citar

Si utiliza Crawl4AI MCP Server en sus investigaciones o proyectos, cítelo utilizando la siguiente entrada BibTeX:

@software{crawl4ai_mcp_2025,
  author = {Melin, Bjorn},
  title = {Crawl4AI MCP Server: High-performance Web Crawling for AI Assistants},
  url = {https://github.com/BjornMelin/crawl4ai-mcp-server},
  version = {1.0.0},
  year = {2025},
  month = {5}
}

Licencia

Instituto Tecnológico de Massachusetts (MIT)

Crawl4AI MCP Server