Skip to main content
Glama
BjornMelin

Crawl4AI MCP Server

⚠️ AVISO

SERVIDOR MCP ACTUALMENTE EN DESARROLLO
NO LISTO PARA USO EN PRODUCCIÓN
SE ACTUALIZARÁ CUANDO ESTÉ EN FUNCIONAMIENTO

Servidor MCP de Crawl4AI

Servidor MCP de alto rendimiento para Crawl4AI: permite que los asistentes de IA accedan al web scraping, el rastreo y la investigación profunda mediante el Protocolo de Contexto de Modelo. ¡Más rápido y eficiente que FireCrawl!

Descripción general

Este proyecto implementa un servidor MCP (Protocolo de Contexto de Modelo) personalizado que se integra con Crawl4AI, una biblioteca de código abierto para el rastreo y el raspado web. El servidor se implementa como un servidor MCP remoto en CloudFlare Workers, lo que permite a asistentes de IA como Claude acceder a las potentes capacidades de raspado web de Crawl4AI.

Related MCP server: Firecrawl MCP Server

Documentación

Para obtener detalles completos sobre este proyecto, consulte la siguiente documentación:

Características

Adquisición de datos web

  • 🌐 Extracción de páginas web individuales : extrae contenido de páginas web individuales

  • 🕸️ Rastreo web : rastrea sitios web con profundidad y límites de página configurables

  • 🗺️ Descubrimiento de URL : mapea y descubre URL desde un punto de partida

  • 🕸️ Rastreo asincrónico : rastree sitios web completos de manera eficiente

Procesamiento de contenido

  • 🔍 Investigación profunda : realice una investigación exhaustiva en varias páginas

  • 📊 Extracción de datos estructurados : extraiga datos específicos utilizando selectores CSS o extracción basada en LLM

  • 🔎 Búsqueda de contenido : busca en contenido rastreado previamente

Integración y seguridad

  • 🔄 Integración con MCP : Integración perfecta con clientes MCP (Claude Desktop, etc.)

  • Autenticación OAuth : acceso seguro con la autorización adecuada

  • 🔒 Opciones de autenticación : Acceso seguro a través de OAuth o clave API (token portador)

  • Alto rendimiento : optimizado para velocidad y eficiencia

Estructura del proyecto

crawl4ai-mcp/
├── src/
│   ├── index.ts               # Main entry point with OAuth provider setup
│   ├── auth-handler.ts        # Authentication handler
│   ├── mcp-server.ts          # MCP server implementation
│   ├── crawl4ai-adapter.ts    # Adapter for Crawl4AI API
│   ├── tool-schemas/          # MCP tool schema definitions
│   │   └── [...].ts           # Tool schemas
│   ├── handlers/
│   │   ├── crawl.ts           # Web crawling implementation
│   │   ├── search.ts          # Search functionality
│   │   └── extract.ts         # Content extraction
│   └── utils/                 # Utility functions
├── tests/                     # Test cases
├── .github/                   # GitHub configuration
├── wrangler.toml              # CloudFlare Workers configuration
├── tsconfig.json              # TypeScript configuration
├── package.json               # Node.js dependencies
└── README.md                  # Project documentation

Empezando

Prerrequisitos

  • Node.js (v18 o superior)

  • npm

  • Wrangler (CLI de trabajadores de CloudFlare)

  • Una cuenta de CloudFlare

Instalación

  1. Clonar el repositorio:

    git clone https://github.com/BjornMelin/crawl4ai-mcp-server.git
    cd crawl4ai-mcp-server
  2. Instalar dependencias:

    npm install
  3. Configurar el espacio de nombres KV de CloudFlare:

    wrangler kv:namespace create CRAWL_DATA
  4. Actualice wrangler.toml con el ID del espacio de nombres KV:

    kv_namespaces = [
      { binding = "CRAWL_DATA", id = "your-namespace-id" }
    ]

Desarrollo

Desarrollo local

  1. Inicie el servidor de desarrollo:

    npm run dev
  2. El servidor estará disponible en http://localhost:8787

Despliegue

  1. Implementar en trabajadores de CloudFlare:

    npm run deploy
  2. Su servidor estará disponible en la URL de CloudFlare Workers asignada a su trabajador implementado.

Uso con clientes MCP

Este servidor implementa el Protocolo de Contexto de Modelo, lo que permite a los asistentes de IA acceder a sus herramientas.

Autenticación

  • Implementar la autenticación OAuth con workers-oauth-provider

  • Agregar autenticación de clave API mediante tokens de portador

  • Crear página de inicio de sesión y gestión de tokens

Conexión a un cliente MCP

  1. Utilice la URL de CloudFlare Workers asignada a su trabajador implementado

  2. En Claude Desktop u otros clientes MCP, agregue este servidor como fuente de herramientas

Herramientas disponibles

  • crawl : Rastrear páginas web desde una URL de inicio

  • getCrawl : recupera datos de rastreo por ID

  • listCrawls : enumera todos los rastreos o filtra por dominio

  • search : Buscar documentos indexados por consulta

  • extract : Extraer contenido estructurado de una URL

Configuración

El servidor se puede configurar modificando las variables de entorno en wrangler.toml :

  • MAX_CRAWL_DEPTH : Profundidad máxima para el rastreo web (predeterminado: 3)

  • MAX_CRAWL_PAGES : Máximo de páginas a rastrear (predeterminado: 100)

  • API_VERSION : cadena de versión de la API (predeterminada: "v1")

  • OAUTH_CLIENT_ID : ID de cliente OAuth para autenticación

  • OAUTH_CLIENT_SECRET : Secreto de cliente OAuth para autenticación

Hoja de ruta

El proyecto se está desarrollando con estos componentes en mente:

  1. Configuración y configuración del proyecto : configuración de CloudFlare Worker, configuración de TypeScript

  2. Esquemas de herramientas y servidor MCP : implementación del servidor MCP con definiciones de herramientas

  3. Adaptador Crawl4AI : Integración con la funcionalidad Crawl4AI

  4. Autenticación OAuth : Implementación de autenticación segura

  5. Optimizaciones de rendimiento : mejora de la velocidad y la confiabilidad

  6. Funciones de extracción avanzadas : mejora de las capacidades de extracción de datos estructurados

Contribuyendo

¡Agradecemos sus contribuciones! Por favor, revise los problemas abiertos o cree uno nuevo antes de empezar a trabajar en una función o corrección de errores. Consulte las directrices de contribución para obtener información detallada.

Apoyo

Si encuentra problemas o tiene preguntas:

Cómo citar

Si utiliza Crawl4AI MCP Server en sus investigaciones o proyectos, cítelo utilizando la siguiente entrada BibTeX:

@software{crawl4ai_mcp_2025,
  author = {Melin, Bjorn},
  title = {Crawl4AI MCP Server: High-performance Web Crawling for AI Assistants},
  url = {https://github.com/BjornMelin/crawl4ai-mcp-server},
  version = {1.0.0},
  year = {2025},
  month = {5}
}

Licencia

Instituto Tecnológico de Massachusetts (MIT)

-
security - not tested
F
license - not found
-
quality - not tested

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/BjornMelin/crawl4ai-mcp-server'

If you have feedback or need assistance with the MCP directory API, please join our Discord server