Descargador de sitios web de MCP
Servidor MCP simple para descargar sitios web de documentación y prepararlos para la indexación RAG.
Características
Descarga sitios de documentación completos, bueno, grandes porciones de todos modos.
Mantiene la estructura del enlace y la navegación, en realidad no. jajaja
Descarga y organiza activos (CSS, JS, imágenes), pero no es realmente compatible con IA y probablemente todo necesite algún tipo de análisis o vectorización en una base de datos o algo así.
Crea un índice limpio para sistemas RAG, actualmente parece crear un índice en cada carpeta, ni siquiera lo he mirado.
Interfaz MCP simple y de un solo propósito, sí.
Instalación
Bifurcar y descargar, cd al repositorio.
Coloque esto en su claude_desktop_config.json con sus propias rutas:

Otros usos por los que no tienes que preocuparte y que pueden resultar alucinantes, jajaja:
Iniciar el servidor:
Úselo a través de Claude Desktop u otros clientes MCP:
Estructura de salida
Desarrollo
El servidor sigue la arquitectura MCP estándar:
Componentes
server.py: Implementación del servidor MCP principal que maneja el registro y las solicitudes de herramientascore.py: Funcionalidad de descarga del sitio web principal con manejo adecuado de activosutils.py: utilidades auxiliares para el manejo de archivos y el procesamiento de URL
Principios de diseño
Responsabilidad única
Cada módulo tiene un propósito claro
El servidor maneja la interfaz MCP
El núcleo gestiona la descarga
Utils maneja operaciones comunes
Estructura limpia
Mantiene la estructura original del sitio.
Organiza los activos por tipo
Crea un índice claro para los sistemas RAG
Operación robusta
Manejo adecuado de errores
Límites de profundidad razonables
Verificación de descarga de activos
Procesamiento limpio de URL/ruta
Índice RAG
El archivo rag_index.json contiene:
Contribuyendo
Bifurcar el repositorio
Crear una rama de características
Realiza tus cambios
Enviar una solicitud de extracción
Licencia
Licencia MIT - Ver archivo LICENCIA
Manejo de errores
El servidor gestiona problemas comunes:
URL no válidas
Errores de red
Errores en la descarga de activos
HTML mal formado
Recursión profunda
Errores del sistema de archivos
Las respuestas de error siguen el formato:
Respuestas de éxito:
local-only server
The server can only run on the client's local machine because it depends on local resources.
Tools
Este servidor permite a los usuarios descargar sitios web completos y sus activos para acceso sin conexión, y admite configuraciones de profundidad y concurrencia.
- Características
- Instalación
- Otros usos por los que no tienes que preocuparte y que pueden resultar alucinantes, jajaja:
- Estructura de salida
- Desarrollo
- Contribuyendo
- Licencia
- Manejo de errores
Related Resources
Related MCP Servers
- Asecurity-licenseAqualityThis server enables LLMs to retrieve and process content from web pages, converting HTML to markdown for easier consumption.Last updated -171,513MIT License
- Asecurity-licenseAqualityProvides a tool to download entire websites using wget. It preserves the website structure and converts links to work locally.Last updated -1138
- Asecurity-licenseAqualityAn advanced web browsing server enabling headless browser interactions via a secure API, providing features like navigation, content extraction, element interaction, and screenshot capture.Last updated -623MIT License
- -security-license-qualityThis server provides an interface for performing basic file system operations such as navigation, reading, writing, and file analysis, allowing users to manage directories and files efficiently.Last updated -4