Загрузчик веб-сайта MCP
Простой MCP-сервер для загрузки веб-сайтов с документацией и подготовки их к индексации RAG.
Функции
Загружает полные сайты документации, во всяком случае большие куски.
Сохраняет структуру ссылок и навигацию, не совсем. lol
Загружает и организует ресурсы (CSS, JS, изображения), но не очень дружелюбен к ИИ и, вероятно, все это требует некоторого анализа или векторизации в базу данных или чего-то в этом роде.
Создает чистый индекс для систем RAG, в настоящее время, похоже, создает индекс в каждой папке, даже не смотрел на это.
Простой специализированный интерфейс MCP, да.
Related MCP server: Website Downloader
Установка
Сделайте форк и загрузите, перейдите в репозиторий.
Добавьте это в ваш claude_desktop_config.json с вашими собственными путями:

Другое использование, о котором вам не нужно беспокоиться и которое может быть галлюцинаторным, лол:
Запустите сервер:
Использование через Claude Desktop или другие клиенты MCP:
Структура вывода
Разработка
Сервер соответствует стандартной архитектуре MCP:
Компоненты
server.py: Основная реализация сервера MCP, которая обрабатывает регистрацию инструментов и запросыcore.py: основная функциональность загрузки веб-сайта с правильной обработкой ресурсовutils.py: Вспомогательные утилиты для обработки файлов и URL-адресов
Принципы проектирования
Единая ответственность
Каждый модуль имеет одну ясную цель
Сервер обрабатывает интерфейс MCP
Ядро обрабатывает загрузку
Utils выполняет общие операции
Чистая структура
Сохраняет исходную структуру сайта
Организует активы по типу
Создает понятный индекс для систем RAG
Надежная работа
Правильная обработка ошибок
Разумные пределы глубины
Проверка загрузки активов
Чистая обработка URL/путей
Индекс РАГ
Файл rag_index.json содержит:
Внося вклад
Форк репозитория
Создать ветку функций
Внесите изменения
Отправить запрос на извлечение
Лицензия
Лицензия MIT — см. файл LICENSE
Обработка ошибок
Сервер обрабатывает распространенные проблемы:
Недействительные URL-адреса
Ошибки сети
Сбои при загрузке активов
Неправильный HTML
Глубокая рекурсия
Ошибки файловой системы
Ответы об ошибках имеют следующий формат:
Успешные ответы: