Descargador de sitios web de MCP
Servidor MCP simple para descargar sitios web de documentación y prepararlos para la indexación RAG.
Características
Descarga sitios de documentación completos, bueno, grandes porciones de todos modos.
Mantiene la estructura del enlace y la navegación, en realidad no. jajaja
Descarga y organiza activos (CSS, JS, imágenes), pero no es realmente compatible con IA y probablemente todo necesite algún tipo de análisis o vectorización en una base de datos o algo así.
Crea un índice limpio para sistemas RAG, actualmente parece crear un índice en cada carpeta, ni siquiera lo he mirado.
Interfaz MCP simple y de un solo propósito, sí.
Related MCP server: Website Downloader
Instalación
Bifurcar y descargar, cd al repositorio.
Coloque esto en su claude_desktop_config.json con sus propias rutas:

Otros usos por los que no tienes que preocuparte y que pueden resultar alucinantes, jajaja:
Iniciar el servidor:
Úselo a través de Claude Desktop u otros clientes MCP:
Estructura de salida
Desarrollo
El servidor sigue la arquitectura MCP estándar:
Componentes
server.py: Implementación del servidor MCP principal que maneja el registro y las solicitudes de herramientascore.py: Funcionalidad de descarga del sitio web principal con manejo adecuado de activosutils.py: utilidades auxiliares para el manejo de archivos y el procesamiento de URL
Principios de diseño
Responsabilidad única
Cada módulo tiene un propósito claro
El servidor maneja la interfaz MCP
El núcleo gestiona la descarga
Utils maneja operaciones comunes
Estructura limpia
Mantiene la estructura original del sitio.
Organiza los activos por tipo
Crea un índice claro para los sistemas RAG
Operación robusta
Manejo adecuado de errores
Límites de profundidad razonables
Verificación de descarga de activos
Procesamiento limpio de URL/ruta
Índice RAG
El archivo rag_index.json contiene:
Contribuyendo
Bifurcar el repositorio
Crear una rama de características
Realiza tus cambios
Enviar una solicitud de extracción
Licencia
Licencia MIT - Ver archivo LICENCIA
Manejo de errores
El servidor gestiona problemas comunes:
URL no válidas
Errores de red
Errores en la descarga de activos
HTML mal formado
Recursión profunda
Errores del sistema de archivos
Las respuestas de error siguen el formato:
Respuestas de éxito: