MCP Windows Website Downloader Server

Загрузчик веб-сайта MCP

Простой MCP-сервер для загрузки веб-сайтов с документацией и подготовки их к индексации RAG.

Функции

  • Загружает полные сайты документации, во всяком случае большие куски.
  • Сохраняет структуру ссылок и навигацию, не совсем. lol
  • Загружает и организует ресурсы (CSS, JS, изображения), но не очень дружелюбен к ИИ и, вероятно, все это требует некоторого анализа или векторизации в базу данных или чего-то в этом роде.
  • Создает чистый индекс для систем RAG, в настоящее время, похоже, создает индекс в каждой папке, даже не смотрел на это.
  • Простой специализированный интерфейс MCP, да.

Установка

Сделайте форк и загрузите, перейдите в репозиторий.

uv venv ./venv/Scripts/activate pip install -e .

Добавьте это в ваш claude_desktop_config.json с вашими собственными путями:

"mcp-windows-website-downloader": { "command": "uv", "args": [ "--directory", "F:/GithubRepos/mcp-windows-website-downloader", "run", "mcp-windows-website-downloader", "--library", "F:/GithubRepos/mcp-windows-website-downloader/website_library" ] },

Другое использование, о котором вам не нужно беспокоиться и которое может быть галлюцинаторным, лол:

  1. Запустите сервер:
python -m mcp_windows_website_downloader.server --library docs_library
  1. Использование через Claude Desktop или другие клиенты MCP:
result = await server.call_tool("download", { "url": "https://docs.example.com" })

Структура вывода

docs_library/ domain_name/ index.html about.html docs/ getting-started.html ... assets/ css/ js/ images/ fonts/ rag_index.json

Разработка

Сервер соответствует стандартной архитектуре MCP:

src/ mcp_windows_website_downloader/ __init__.py server.py # MCP server implementation core.py # Core downloader functionality utils.py # Helper utilities

Компоненты

  • server.py : Основная реализация сервера MCP, которая обрабатывает регистрацию инструментов и запросы
  • core.py : основная функциональность загрузки веб-сайта с правильной обработкой ресурсов
  • utils.py : Вспомогательные утилиты для обработки файлов и URL-адресов

Принципы проектирования

  1. Единая ответственность
    • Каждый модуль имеет одну ясную цель
    • Сервер обрабатывает интерфейс MCP
    • Ядро обрабатывает загрузку
    • Utils выполняет общие операции
  2. Чистая структура
    • Сохраняет исходную структуру сайта
    • Организует активы по типу
    • Создает понятный индекс для систем RAG
  3. Надежная работа
    • Правильная обработка ошибок
    • Разумные пределы глубины
    • Проверка загрузки активов
    • Чистая обработка URL/путей

Индекс РАГ

Файл rag_index.json содержит:

{ "url": "https://docs.example.com", "domain": "docs.example.com", "pages": 42, "path": "/path/to/site" }

Внося вклад

  1. Форк репозитория
  2. Создать ветку функций
  3. Внесите изменения
  4. Отправить запрос на извлечение

Лицензия

Лицензия MIT — см. файл LICENSE

Обработка ошибок

Сервер обрабатывает распространенные проблемы:

  • Недействительные URL-адреса
  • Ошибки сети
  • Сбои при загрузке активов
  • Неправильный HTML
  • Глубокая рекурсия
  • Ошибки файловой системы

Ответы об ошибках имеют следующий формат:

{ "status": "error", "error": "Detailed error message" }

Успешные ответы:

{ "status": "success", "path": "/path/to/downloaded/site", "pages": 42 }

You must be authenticated.

A
security – no known vulnerabilities
A
license - permissive license
A
quality - confirmed to work

local-only server

The server can only run on the client's local machine because it depends on local resources.

Этот сервер позволяет пользователям загружать целые веб-сайты и их ресурсы для автономного доступа, поддерживая настраиваемые параметры глубины и параллелизма.

  1. Функции
    1. Установка
      1. Другое использование, о котором вам не нужно беспокоиться и которое может быть галлюцинаторным, лол:
        1. Структура вывода
          1. Разработка
            1. Компоненты
            2. Принципы проектирования
            3. Индекс РАГ
          2. Внося вклад
            1. Лицензия
              1. Обработка ошибок

                Related MCP Servers

                • A
                  security
                  A
                  license
                  A
                  quality
                  This server facilitates interaction with Keboola's Storage API, enabling users to browse and manage project buckets, tables, and components efficiently through Claude Desktop.
                  Last updated -
                  7
                  14
                  Python
                  MIT License
                  • Apple
                • A
                  security
                  A
                  license
                  A
                  quality
                  This server facilitates interaction with cosense/Scrapbox projects, enabling users to retrieve, list, search, and create pages while supporting various query operations and secure access to private projects.
                  Last updated -
                  4
                  12
                  TypeScript
                  MIT License
                  • Apple
                • -
                  security
                  F
                  license
                  -
                  quality
                  A server for downloading, processing, and managing YouTube content with features like video quality selection, format conversion, and metadata extraction.
                  Last updated -
                  JavaScript
                • -
                  security
                  -
                  license
                  -
                  quality
                  A server that enables web scraping of difficult-to-access websites affected by bot detection, captchas, or geolocation restrictions, returning results in either HTML or Markdown format.
                  Last updated -
                  1
                  JavaScript

                View all related MCP servers

                ID: 5jmjuexe0d