Skip to main content
Glama

⚠️ AVISO

SERVIDOR MCP ACTUALMENTE EN DESARROLLO
NO LISTO PARA USO EN PRODUCCIÓN
SE ACTUALIZARÁ CUANDO ESTÉ EN FUNCIONAMIENTO

Servidor MCP de Crawl4AI

Servidor MCP de alto rendimiento para Crawl4AI: permite que los asistentes de IA accedan al web scraping, el rastreo y la investigación profunda mediante el Protocolo de Contexto de Modelo. ¡Más rápido y eficiente que FireCrawl!

Descripción general

Este proyecto implementa un servidor MCP (Protocolo de Contexto de Modelo) personalizado que se integra con Crawl4AI, una biblioteca de código abierto para el rastreo y el raspado web. El servidor se implementa como un servidor MCP remoto en CloudFlare Workers, lo que permite a asistentes de IA como Claude acceder a las potentes capacidades de raspado web de Crawl4AI.

Related MCP server: Firecrawl MCP Server

Documentación

Para obtener detalles completos sobre este proyecto, consulte la siguiente documentación:

Características

Adquisición de datos web

  • 🌐 Extracción de páginas web individuales : extrae contenido de páginas web individuales

  • 🕸️ Rastreo web : rastrea sitios web con profundidad y límites de página configurables

  • 🗺️ Descubrimiento de URL : mapea y descubre URL desde un punto de partida

  • 🕸️ Rastreo asincrónico : rastree sitios web completos de manera eficiente

Procesamiento de contenido

  • 🔍 Investigación profunda : realice una investigación exhaustiva en varias páginas

  • 📊 Extracción de datos estructurados : extraiga datos específicos utilizando selectores CSS o extracción basada en LLM

  • 🔎 Búsqueda de contenido : busca en contenido rastreado previamente

Integración y seguridad

  • 🔄 Integración con MCP : Integración perfecta con clientes MCP (Claude Desktop, etc.)

  • Autenticación OAuth : acceso seguro con la autorización adecuada

  • 🔒 Opciones de autenticación : Acceso seguro a través de OAuth o clave API (token portador)

  • Alto rendimiento : optimizado para velocidad y eficiencia

Estructura del proyecto

crawl4ai-mcp/ ├── src/ │ ├── index.ts # Main entry point with OAuth provider setup │ ├── auth-handler.ts # Authentication handler │ ├── mcp-server.ts # MCP server implementation │ ├── crawl4ai-adapter.ts # Adapter for Crawl4AI API │ ├── tool-schemas/ # MCP tool schema definitions │ │ └── [...].ts # Tool schemas │ ├── handlers/ │ │ ├── crawl.ts # Web crawling implementation │ │ ├── search.ts # Search functionality │ │ └── extract.ts # Content extraction │ └── utils/ # Utility functions ├── tests/ # Test cases ├── .github/ # GitHub configuration ├── wrangler.toml # CloudFlare Workers configuration ├── tsconfig.json # TypeScript configuration ├── package.json # Node.js dependencies └── README.md # Project documentation

Empezando

Prerrequisitos

  • Node.js (v18 o superior)

  • npm

  • Wrangler (CLI de trabajadores de CloudFlare)

  • Una cuenta de CloudFlare

Instalación

  1. Clonar el repositorio:

    git clone https://github.com/BjornMelin/crawl4ai-mcp-server.git cd crawl4ai-mcp-server
  2. Instalar dependencias:

    npm install
  3. Configurar el espacio de nombres KV de CloudFlare:

    wrangler kv:namespace create CRAWL_DATA
  4. Actualice wrangler.toml con el ID del espacio de nombres KV:

    kv_namespaces = [ { binding = "CRAWL_DATA", id = "your-namespace-id" } ]

Desarrollo

Desarrollo local

  1. Inicie el servidor de desarrollo:

    npm run dev
  2. El servidor estará disponible en http://localhost:8787

Despliegue

  1. Implementar en trabajadores de CloudFlare:

    npm run deploy
  2. Su servidor estará disponible en la URL de CloudFlare Workers asignada a su trabajador implementado.

Uso con clientes MCP

Este servidor implementa el Protocolo de Contexto de Modelo, lo que permite a los asistentes de IA acceder a sus herramientas.

Autenticación

  • Implementar la autenticación OAuth con workers-oauth-provider

  • Agregar autenticación de clave API mediante tokens de portador

  • Crear página de inicio de sesión y gestión de tokens

Conexión a un cliente MCP

  1. Utilice la URL de CloudFlare Workers asignada a su trabajador implementado

  2. En Claude Desktop u otros clientes MCP, agregue este servidor como fuente de herramientas

Herramientas disponibles

  • crawl : Rastrear páginas web desde una URL de inicio

  • getCrawl : recupera datos de rastreo por ID

  • listCrawls : enumera todos los rastreos o filtra por dominio

  • search : Buscar documentos indexados por consulta

  • extract : Extraer contenido estructurado de una URL

Configuración

El servidor se puede configurar modificando las variables de entorno en wrangler.toml :

  • MAX_CRAWL_DEPTH : Profundidad máxima para el rastreo web (predeterminado: 3)

  • MAX_CRAWL_PAGES : Máximo de páginas a rastrear (predeterminado: 100)

  • API_VERSION : cadena de versión de la API (predeterminada: "v1")

  • OAUTH_CLIENT_ID : ID de cliente OAuth para autenticación

  • OAUTH_CLIENT_SECRET : Secreto de cliente OAuth para autenticación

Hoja de ruta

El proyecto se está desarrollando con estos componentes en mente:

  1. Configuración y configuración del proyecto : configuración de CloudFlare Worker, configuración de TypeScript

  2. Esquemas de herramientas y servidor MCP : implementación del servidor MCP con definiciones de herramientas

  3. Adaptador Crawl4AI : Integración con la funcionalidad Crawl4AI

  4. Autenticación OAuth : Implementación de autenticación segura

  5. Optimizaciones de rendimiento : mejora de la velocidad y la confiabilidad

  6. Funciones de extracción avanzadas : mejora de las capacidades de extracción de datos estructurados

Contribuyendo

¡Agradecemos sus contribuciones! Por favor, revise los problemas abiertos o cree uno nuevo antes de empezar a trabajar en una función o corrección de errores. Consulte las directrices de contribución para obtener información detallada.

Apoyo

Si encuentra problemas o tiene preguntas:

Cómo citar

Si utiliza Crawl4AI MCP Server en sus investigaciones o proyectos, cítelo utilizando la siguiente entrada BibTeX:

@software{crawl4ai_mcp_2025, author = {Melin, Bjorn}, title = {Crawl4AI MCP Server: High-performance Web Crawling for AI Assistants}, url = {https://github.com/BjornMelin/crawl4ai-mcp-server}, version = {1.0.0}, year = {2025}, month = {5} }

Licencia

Instituto Tecnológico de Massachusetts (MIT)

-
security - not tested
F
license - not found
-
quality - not tested

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/BjornMelin/crawl4ai-mcp-server'

If you have feedback or need assistance with the MCP directory API, please join our Discord server