Skip to main content
Glama

MCP Windows Website Downloader Server

Descargador de sitios web de MCP

Servidor MCP simple para descargar sitios web de documentación y prepararlos para la indexación RAG.

Características

  • Descarga sitios de documentación completos, bueno, grandes porciones de todos modos.

  • Mantiene la estructura del enlace y la navegación, en realidad no. jajaja

  • Descarga y organiza activos (CSS, JS, imágenes), pero no es realmente compatible con IA y probablemente todo necesite algún tipo de análisis o vectorización en una base de datos o algo así.

  • Crea un índice limpio para sistemas RAG, actualmente parece crear un índice en cada carpeta, ni siquiera lo he mirado.

  • Interfaz MCP simple y de un solo propósito, sí.

Instalación

Bifurcar y descargar, cd al repositorio.

uv venv ./venv/Scripts/activate pip install -e .

Coloque esto en su claude_desktop_config.json con sus propias rutas:

"mcp-windows-website-downloader": { "command": "uv", "args": [ "--directory", "F:/GithubRepos/mcp-windows-website-downloader", "run", "mcp-windows-website-downloader", "--library", "F:/GithubRepos/mcp-windows-website-downloader/website_library" ] },

texto alternativo

Otros usos por los que no tienes que preocuparte y que pueden resultar alucinantes, jajaja:

  1. Iniciar el servidor:

python -m mcp_windows_website_downloader.server --library docs_library
  1. Úselo a través de Claude Desktop u otros clientes MCP:

result = await server.call_tool("download", { "url": "https://docs.example.com" })

Estructura de salida

docs_library/ domain_name/ index.html about.html docs/ getting-started.html ... assets/ css/ js/ images/ fonts/ rag_index.json

Desarrollo

El servidor sigue la arquitectura MCP estándar:

src/ mcp_windows_website_downloader/ __init__.py server.py # MCP server implementation core.py # Core downloader functionality utils.py # Helper utilities

Componentes

  • server.py : Implementación del servidor MCP principal que maneja el registro y las solicitudes de herramientas

  • core.py : Funcionalidad de descarga del sitio web principal con manejo adecuado de activos

  • utils.py : utilidades auxiliares para el manejo de archivos y el procesamiento de URL

Principios de diseño

  1. Responsabilidad única

    • Cada módulo tiene un propósito claro

    • El servidor maneja la interfaz MCP

    • El núcleo gestiona la descarga

    • Utils maneja operaciones comunes

  2. Estructura limpia

    • Mantiene la estructura original del sitio.

    • Organiza los activos por tipo

    • Crea un índice claro para los sistemas RAG

  3. Operación robusta

    • Manejo adecuado de errores

    • Límites de profundidad razonables

    • Verificación de descarga de activos

    • Procesamiento limpio de URL/ruta

Índice RAG

El archivo rag_index.json contiene:

{ "url": "https://docs.example.com", "domain": "docs.example.com", "pages": 42, "path": "/path/to/site" }

Contribuyendo

  1. Bifurcar el repositorio

  2. Crear una rama de características

  3. Realiza tus cambios

  4. Enviar una solicitud de extracción

Licencia

Licencia MIT - Ver archivo LICENCIA

Manejo de errores

El servidor gestiona problemas comunes:

  • URL no válidas

  • Errores de red

  • Errores en la descarga de activos

  • HTML mal formado

  • Recursión profunda

  • Errores del sistema de archivos

Las respuestas de error siguen el formato:

{ "status": "error", "error": "Detailed error message" }

Respuestas de éxito:

{ "status": "success", "path": "/path/to/downloaded/site", "pages": 42 }
Deploy Server
A
security – no known vulnerabilities
-
license - not tested
A
quality - confirmed to work

local-only server

The server can only run on the client's local machine because it depends on local resources.

Este servidor permite a los usuarios descargar sitios web completos y sus activos para acceso sin conexión, y admite configuraciones de profundidad y concurrencia.

  1. Características
    1. Instalación
      1. Otros usos por los que no tienes que preocuparte y que pueden resultar alucinantes, jajaja:
        1. Estructura de salida
          1. Desarrollo
            1. Componentes
            2. Principios de diseño
            3. Índice RAG
          2. Contribuyendo
            1. Licencia
              1. Manejo de errores

                Related MCP Servers

                • A
                  security
                  -
                  license
                  A
                  quality
                  This server enables LLMs to retrieve and process content from web pages, converting HTML to markdown for easier consumption.
                  Last updated -
                  1
                  71,513
                  MIT License
                  • Linux
                  • Apple
                • A
                  security
                  -
                  license
                  A
                  quality
                  Provides a tool to download entire websites using wget. It preserves the website structure and converts links to work locally.
                  Last updated -
                  1
                  138
                  • Apple
                  • Linux
                • A
                  security
                  -
                  license
                  A
                  quality
                  An advanced web browsing server enabling headless browser interactions via a secure API, providing features like navigation, content extraction, element interaction, and screenshot capture.
                  Last updated -
                  6
                  23
                  MIT License
                • -
                  security
                  -
                  license
                  -
                  quality
                  This server provides an interface for performing basic file system operations such as navigation, reading, writing, and file analysis, allowing users to manage directories and files efficiently.
                  Last updated -
                  4

                View all related MCP servers

                MCP directory API

                We provide all the information about MCP servers via our MCP API.

                curl -X GET 'https://glama.ai/api/mcp/v1/servers/angrysky56/mcp-windows-website-downloader'

                If you have feedback or need assistance with the MCP directory API, please join our Discord server