local-only server
The server can only run on the client’s local machine because it depends on local resources.
Descargador de sitios web de MCP
Servidor MCP simple para descargar sitios web de documentación y prepararlos para la indexación RAG.
Características
- Descarga sitios de documentación completos, bueno, grandes porciones de todos modos.
- Mantiene la estructura del enlace y la navegación, en realidad no. jajaja
- Descarga y organiza activos (CSS, JS, imágenes), pero no es realmente compatible con IA y probablemente todo necesite algún tipo de análisis o vectorización en una base de datos o algo así.
- Crea un índice limpio para sistemas RAG, actualmente parece crear un índice en cada carpeta, ni siquiera lo he mirado.
- Interfaz MCP simple y de un solo propósito, sí.
Instalación
Bifurcar y descargar, cd al repositorio.
Copy
Coloque esto en su claude_desktop_config.json con sus propias rutas:
Copy
Otros usos por los que no tienes que preocuparte y que pueden resultar alucinantes, jajaja:
- Iniciar el servidor:
Copy
- Úselo a través de Claude Desktop u otros clientes MCP:
Copy
Estructura de salida
Copy
Desarrollo
El servidor sigue la arquitectura MCP estándar:
Copy
Componentes
server.py
: Implementación del servidor MCP principal que maneja el registro y las solicitudes de herramientascore.py
: Funcionalidad de descarga del sitio web principal con manejo adecuado de activosutils.py
: utilidades auxiliares para el manejo de archivos y el procesamiento de URL
Principios de diseño
- Responsabilidad única
- Cada módulo tiene un propósito claro
- El servidor maneja la interfaz MCP
- El núcleo gestiona la descarga
- Utils maneja operaciones comunes
- Estructura limpia
- Mantiene la estructura original del sitio.
- Organiza los activos por tipo
- Crea un índice claro para los sistemas RAG
- Operación robusta
- Manejo adecuado de errores
- Límites de profundidad razonables
- Verificación de descarga de activos
- Procesamiento limpio de URL/ruta
Índice RAG
El archivo rag_index.json
contiene:
Copy
Contribuyendo
- Bifurcar el repositorio
- Crear una rama de características
- Realiza tus cambios
- Enviar una solicitud de extracción
Licencia
Licencia MIT - Ver archivo LICENCIA
Manejo de errores
El servidor gestiona problemas comunes:
- URL no válidas
- Errores de red
- Errores en la descarga de activos
- HTML mal formado
- Recursión profunda
- Errores del sistema de archivos
Las respuestas de error siguen el formato:
Copy
Respuestas de éxito:
Copy
You must be authenticated.
Tools
Este servidor permite a los usuarios descargar sitios web completos y sus activos para acceso sin conexión, y admite configuraciones de profundidad y concurrencia.
- Features
- Installation
- Other Usage you don't need to worry about and may be hallucinatory lol:
- Output Structure
- Development
- Contributing
- License
- Error Handling