Integrations
Serves as the deployment platform for the MCP server, enabling the service to run on CloudFlare's edge network
⚠️ AVISO
SERVIDOR MCP ACTUALMENTE EN DESARROLLO
NO LISTO PARA USO EN PRODUCCIÓN
SE ACTUALIZARÁ CUANDO ESTÉ EN FUNCIONAMIENTO
Servidor MCP de Crawl4AI
Servidor MCP de alto rendimiento para Crawl4AI: permite que los asistentes de IA accedan al web scraping, el rastreo y la investigación profunda mediante el Protocolo de Contexto de Modelo. ¡Más rápido y eficiente que FireCrawl!
Descripción general
Este proyecto implementa un servidor MCP (Protocolo de Contexto de Modelo) personalizado que se integra con Crawl4AI, una biblioteca de código abierto para el rastreo y el raspado web. El servidor se implementa como un servidor MCP remoto en CloudFlare Workers, lo que permite a asistentes de IA como Claude acceder a las potentes capacidades de raspado web de Crawl4AI.
Documentación
Para obtener detalles completos sobre este proyecto, consulte la siguiente documentación:
- Plan de migración : plan detallado para migrar de Firecrawl a Crawl4AI
- Arquitectura mejorada : arquitectura multiinquilino con flexibilidad del proveedor de nube
- Guía de implementación : detalles de implementación técnica y ejemplos de código
- Simplificación de la base de código : detalles sobre la simplificación del código y las mejores prácticas implementadas
Características
Adquisición de datos web
- 🌐 Extracción de páginas web individuales : extrae contenido de páginas web individuales
- 🕸️ Rastreo web : rastrea sitios web con profundidad y límites de página configurables
- 🗺️ Descubrimiento de URL : mapea y descubre URL desde un punto de partida
- 🕸️ Rastreo asincrónico : rastree sitios web completos de manera eficiente
Procesamiento de contenido
- 🔍 Investigación profunda : realice una investigación exhaustiva en varias páginas
- 📊 Extracción de datos estructurados : extraiga datos específicos utilizando selectores CSS o extracción basada en LLM
- 🔎 Búsqueda de contenido : busca en contenido rastreado previamente
Integración y seguridad
- 🔄 Integración con MCP : Integración perfecta con clientes MCP (Claude Desktop, etc.)
- Autenticación OAuth : acceso seguro con la autorización adecuada
- 🔒 Opciones de autenticación : Acceso seguro a través de OAuth o clave API (token portador)
- ⚡ Alto rendimiento : optimizado para velocidad y eficiencia
Estructura del proyecto
Empezando
Prerrequisitos
Instalación
- Clonar el repositorio:Copy
- Instalar dependencias:Copy
- Configurar el espacio de nombres KV de CloudFlare:Copy
- Actualice
wrangler.toml
con el ID del espacio de nombres KV:Copy
Desarrollo
Desarrollo local
- Inicie el servidor de desarrollo:Copy
- El servidor estará disponible en http://localhost:8787
Despliegue
- Implementar en trabajadores de CloudFlare:Copy
- Su servidor estará disponible en la URL de CloudFlare Workers asignada a su trabajador implementado.
Uso con clientes MCP
Este servidor implementa el Protocolo de Contexto de Modelo, lo que permite a los asistentes de IA acceder a sus herramientas.
Autenticación
- Implementar la autenticación OAuth con workers-oauth-provider
- Agregar autenticación de clave API mediante tokens de portador
- Crear página de inicio de sesión y gestión de tokens
Conexión a un cliente MCP
- Utilice la URL de CloudFlare Workers asignada a su trabajador implementado
- En Claude Desktop u otros clientes MCP, agregue este servidor como fuente de herramientas
Herramientas disponibles
crawl
: Rastrear páginas web desde una URL de iniciogetCrawl
: recupera datos de rastreo por IDlistCrawls
: enumera todos los rastreos o filtra por dominiosearch
: Buscar documentos indexados por consultaextract
: Extraer contenido estructurado de una URL
Configuración
El servidor se puede configurar modificando las variables de entorno en wrangler.toml
:
MAX_CRAWL_DEPTH
: Profundidad máxima para el rastreo web (predeterminado: 3)MAX_CRAWL_PAGES
: Máximo de páginas a rastrear (predeterminado: 100)API_VERSION
: cadena de versión de la API (predeterminada: "v1")OAUTH_CLIENT_ID
: ID de cliente OAuth para autenticaciónOAUTH_CLIENT_SECRET
: Secreto de cliente OAuth para autenticación
Hoja de ruta
El proyecto se está desarrollando con estos componentes en mente:
- Configuración y configuración del proyecto : configuración de CloudFlare Worker, configuración de TypeScript
- Esquemas de herramientas y servidor MCP : implementación del servidor MCP con definiciones de herramientas
- Adaptador Crawl4AI : Integración con la funcionalidad Crawl4AI
- Autenticación OAuth : Implementación de autenticación segura
- Optimizaciones de rendimiento : mejora de la velocidad y la confiabilidad
- Funciones de extracción avanzadas : mejora de las capacidades de extracción de datos estructurados
Contribuyendo
¡Agradecemos sus contribuciones! Por favor, revise los problemas abiertos o cree uno nuevo antes de empezar a trabajar en una función o corrección de errores. Consulte las directrices de contribución para obtener información detallada.
Apoyo
Si encuentra problemas o tiene preguntas:
- Abrir un problema en el repositorio de GitHub
- Consulte la documentación de Crawl4AI
- Consulte la especificación del Protocolo de Contexto de Modelo
Cómo citar
Si utiliza Crawl4AI MCP Server en sus investigaciones o proyectos, cítelo utilizando la siguiente entrada BibTeX:
Licencia
This server cannot be installed
remote-capable server
The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.
Servidor de alto rendimiento que permite a los asistentes de IA acceder a capacidades de raspado web, rastreo e investigación profunda a través del Protocolo de contexto de modelo.
Related MCP Servers
- AsecurityAlicenseAqualityA production-ready Model Context Protocol server that enables language models to leverage AI-powered web scraping capabilities, offering tools for transforming webpages to markdown, extracting structured data, and executing AI-powered web searches.Last updated -316PythonMIT License
- -securityAlicense-qualityA Model Context Protocol server that enables AI assistants to perform advanced web scraping, crawling, searching, and data extraction through the Firecrawl API.Last updated -15,275MIT License
- AsecurityFlicenseAqualityA Model Context Protocol server that enables AI assistants to perform real-time web searches, retrieving up-to-date information from the internet via a Crawler API.Last updated -1448JavaScript
- -securityAlicense-qualityA Model Context Protocol server that provides real-time web search capabilities to AI assistants through pluggable search providers, currently integrated with the Brave Search API.Last updated -3TypeScriptMIT License