MCP Windows Website Downloader Server

MCP Website Downloader

Einfacher MCP-Server zum Herunterladen von Dokumentationswebsites und Vorbereiten für die RAG-Indizierung.

Merkmale

  • Lädt komplette Dokumentationsseiten herunter, zumindest große Teile.
  • Behält die Linkstruktur und Navigation bei, nicht wirklich. lol
  • Lädt Assets (CSS, JS, Bilder) herunter und organisiert sie, ist aber nicht wirklich KI-freundlich und es muss wahrscheinlich alles irgendwie analysiert oder in eine Datenbank oder so etwas vektorisiert werden.
  • Erstellt einen sauberen Index für RAG-Systeme. Derzeit scheint in jedem Ordner ein Index erstellt zu werden, ohne dass er noch einmal angeschaut wurde.
  • Einfache, zweckgebundene MCP-Schnittstelle, ja.

Installation

Forken und herunterladen, mit CD zum Repository wechseln.

uv venv ./venv/Scripts/activate pip install -e .

Fügen Sie dies mit Ihren eigenen Pfaden in Ihre claude_desktop_config.json ein:

"mcp-windows-website-downloader": { "command": "uv", "args": [ "--directory", "F:/GithubRepos/mcp-windows-website-downloader", "run", "mcp-windows-website-downloader", "--library", "F:/GithubRepos/mcp-windows-website-downloader/website_library" ] },

Andere Verwendungen, über die Sie sich keine Sorgen machen müssen und die halluzinogene Wirkungen haben können, lol:

  1. Starten Sie den Server:
python -m mcp_windows_website_downloader.server --library docs_library
  1. Verwendung über Claude Desktop oder andere MCP-Clients:
result = await server.call_tool("download", { "url": "https://docs.example.com" })

Ausgabestruktur

docs_library/ domain_name/ index.html about.html docs/ getting-started.html ... assets/ css/ js/ images/ fonts/ rag_index.json

Entwicklung

Der Server folgt der Standard-MCP-Architektur:

src/ mcp_windows_website_downloader/ __init__.py server.py # MCP server implementation core.py # Core downloader functionality utils.py # Helper utilities

Komponenten

  • server.py : Hauptimplementierung des MCP-Servers, die die Tool-Registrierung und -Anfragen verarbeitet
  • core.py : Kernfunktion zum Herunterladen von Websites mit ordnungsgemäßer Asset-Verarbeitung
  • utils.py : Hilfsprogramme für die Dateiverwaltung und URL-Verarbeitung

Designprinzipien

  1. Einzelverantwortung
    • Jedes Modul hat einen klaren Zweck
    • Server verarbeitet MCP-Schnittstelle
    • Der Kern übernimmt das Herunterladen
    • Utils übernimmt allgemeine Operationen
  2. Saubere Struktur
    • Behält die ursprüngliche Site-Struktur bei
    • Organisiert Vermögenswerte nach Typ
    • Schafft einen übersichtlichen Index für RAG-Systeme
  3. Robuster Betrieb
    • Richtige Fehlerbehandlung
    • Angemessene Tiefengrenzen
    • Überprüfung des Asset-Downloads
    • Saubere URL-/Pfadverarbeitung

RAG-Index

Die Datei rag_index.json enthält:

{ "url": "https://docs.example.com", "domain": "docs.example.com", "pages": 42, "path": "/path/to/site" }

Beitragen

  1. Forken Sie das Repository
  2. Erstellen eines Feature-Zweigs
  3. Nehmen Sie Ihre Änderungen vor
  4. Senden einer Pull-Anfrage

Lizenz

MIT-Lizenz – Siehe LICENSE-Datei

Fehlerbehandlung

Der Server behandelt allgemeine Probleme:

  • Ungültige URLs
  • Netzwerkfehler
  • Fehler beim Herunterladen von Assets
  • Fehlerhaftes HTML
  • Tiefe Rekursion
  • Dateisystemfehler

Fehlerantworten folgen dem Format:

{ "status": "error", "error": "Detailed error message" }

Erfolgsantworten:

{ "status": "success", "path": "/path/to/downloaded/site", "pages": 42 }

You must be authenticated.

A
security – no known vulnerabilities
A
license - permissive license
A
quality - confirmed to work

local-only server

The server can only run on the client's local machine because it depends on local resources.

Dieser Server ermöglicht Benutzern das Herunterladen ganzer Websites und ihrer Assets für den Offline-Zugriff und unterstützt konfigurierbare Tiefen- und Parallelitätseinstellungen.

  1. Merkmale
    1. Installation
      1. Andere Verwendungen, über die Sie sich keine Sorgen machen müssen und die halluzinogene Wirkungen haben können, lol:
        1. Ausgabestruktur
          1. Entwicklung
            1. Komponenten
            2. Designprinzipien
            3. RAG-Index
          2. Beitragen
            1. Lizenz
              1. Fehlerbehandlung

                Related MCP Servers

                • A
                  security
                  A
                  license
                  A
                  quality
                  This server facilitates interaction with Keboola's Storage API, enabling users to browse and manage project buckets, tables, and components efficiently through Claude Desktop.
                  Last updated -
                  7
                  14
                  Python
                  MIT License
                  • Apple
                • A
                  security
                  A
                  license
                  A
                  quality
                  This server facilitates interaction with cosense/Scrapbox projects, enabling users to retrieve, list, search, and create pages while supporting various query operations and secure access to private projects.
                  Last updated -
                  4
                  12
                  TypeScript
                  MIT License
                  • Apple
                • -
                  security
                  F
                  license
                  -
                  quality
                  A server for downloading, processing, and managing YouTube content with features like video quality selection, format conversion, and metadata extraction.
                  Last updated -
                  JavaScript
                • -
                  security
                  -
                  license
                  -
                  quality
                  A server that enables web scraping of difficult-to-access websites affected by bot detection, captchas, or geolocation restrictions, returning results in either HTML or Markdown format.
                  Last updated -
                  1
                  JavaScript

                View all related MCP servers

                ID: 5jmjuexe0d