Descargador de sitios web de MCP
Servidor MCP simple para descargar sitios web de documentación y prepararlos para la indexación RAG.
Características
- Descarga sitios de documentación completos, bueno, grandes porciones de todos modos.
- Mantiene la estructura del enlace y la navegación, en realidad no. jajaja
- Descarga y organiza activos (CSS, JS, imágenes), pero no es realmente compatible con IA y probablemente todo necesite algún tipo de análisis o vectorización en una base de datos o algo así.
- Crea un índice limpio para sistemas RAG, actualmente parece crear un índice en cada carpeta, ni siquiera lo he mirado.
- Interfaz MCP simple y de un solo propósito, sí.
Instalación
Bifurcar y descargar, cd al repositorio.
Coloque esto en su claude_desktop_config.json con sus propias rutas:
Otros usos por los que no tienes que preocuparte y que pueden resultar alucinantes, jajaja:
- Iniciar el servidor:
- Úselo a través de Claude Desktop u otros clientes MCP:
Estructura de salida
Desarrollo
El servidor sigue la arquitectura MCP estándar:
Componentes
server.py
: Implementación del servidor MCP principal que maneja el registro y las solicitudes de herramientascore.py
: Funcionalidad de descarga del sitio web principal con manejo adecuado de activosutils.py
: utilidades auxiliares para el manejo de archivos y el procesamiento de URL
Principios de diseño
- Responsabilidad única
- Cada módulo tiene un propósito claro
- El servidor maneja la interfaz MCP
- El núcleo gestiona la descarga
- Utils maneja operaciones comunes
- Estructura limpia
- Mantiene la estructura original del sitio.
- Organiza los activos por tipo
- Crea un índice claro para los sistemas RAG
- Operación robusta
- Manejo adecuado de errores
- Límites de profundidad razonables
- Verificación de descarga de activos
- Procesamiento limpio de URL/ruta
Índice RAG
El archivo rag_index.json
contiene:
Contribuyendo
- Bifurcar el repositorio
- Crear una rama de características
- Realiza tus cambios
- Enviar una solicitud de extracción
Licencia
Licencia MIT - Ver archivo LICENCIA
Manejo de errores
El servidor gestiona problemas comunes:
- URL no válidas
- Errores de red
- Errores en la descarga de activos
- HTML mal formado
- Recursión profunda
- Errores del sistema de archivos
Las respuestas de error siguen el formato:
Respuestas de éxito:
You must be authenticated.
local-only server
The server can only run on the client's local machine because it depends on local resources.
Tools
Este servidor permite a los usuarios descargar sitios web completos y sus activos para acceso sin conexión, y admite configuraciones de profundidad y concurrencia.
- Características
- Instalación
- Otros usos por los que no tienes que preocuparte y que pueden resultar alucinantes, jajaja:
- Estructura de salida
- Desarrollo
- Contribuyendo
- Licencia
- Manejo de errores
Related Resources
Related MCP Servers
- AsecurityAlicenseAqualityThis server facilitates interaction with Keboola's Storage API, enabling users to browse and manage project buckets, tables, and components efficiently through Claude Desktop.Last updated -741PythonMIT License
- AsecurityAlicenseAqualityThis server facilitates interaction with cosense/Scrapbox projects, enabling users to retrieve, list, search, and create pages while supporting various query operations and secure access to private projects.Last updated -419TypeScriptMIT License
- -securityFlicense-qualityA server for downloading, processing, and managing YouTube content with features like video quality selection, format conversion, and metadata extraction.Last updated -JavaScript
- -security-license-qualityA server that enables web scraping of difficult-to-access websites affected by bot detection, captchas, or geolocation restrictions, returning results in either HTML or Markdown format.Last updated -1JavaScript