Загрузчик веб-сайта MCP
Простой MCP-сервер для загрузки веб-сайтов с документацией и подготовки их к индексации RAG.
Функции
- Загружает полные сайты документации, во всяком случае большие куски.
- Сохраняет структуру ссылок и навигацию, не совсем. lol
- Загружает и организует ресурсы (CSS, JS, изображения), но не очень дружелюбен к ИИ и, вероятно, все это требует некоторого анализа или векторизации в базу данных или чего-то в этом роде.
- Создает чистый индекс для систем RAG, в настоящее время, похоже, создает индекс в каждой папке, даже не смотрел на это.
- Простой специализированный интерфейс MCP, да.
Установка
Сделайте форк и загрузите, перейдите в репозиторий.
Copy
Добавьте это в ваш claude_desktop_config.json с вашими собственными путями:
Copy
Другое использование, о котором вам не нужно беспокоиться и которое может быть галлюцинаторным, лол:
- Запустите сервер:
Copy
- Использование через Claude Desktop или другие клиенты MCP:
Copy
Структура вывода
Copy
Разработка
Сервер соответствует стандартной архитектуре MCP:
Copy
Компоненты
server.py
: Основная реализация сервера MCP, которая обрабатывает регистрацию инструментов и запросыcore.py
: основная функциональность загрузки веб-сайта с правильной обработкой ресурсовutils.py
: Вспомогательные утилиты для обработки файлов и URL-адресов
Принципы проектирования
- Единая ответственность
- Каждый модуль имеет одну ясную цель
- Сервер обрабатывает интерфейс MCP
- Ядро обрабатывает загрузку
- Utils выполняет общие операции
- Чистая структура
- Сохраняет исходную структуру сайта
- Организует активы по типу
- Создает понятный индекс для систем RAG
- Надежная работа
- Правильная обработка ошибок
- Разумные пределы глубины
- Проверка загрузки активов
- Чистая обработка URL/путей
Индекс РАГ
Файл rag_index.json
содержит:
Copy
Внося вклад
- Форк репозитория
- Создать ветку функций
- Внесите изменения
- Отправить запрос на извлечение
Лицензия
Лицензия MIT — см. файл LICENSE
Обработка ошибок
Сервер обрабатывает распространенные проблемы:
- Недействительные URL-адреса
- Ошибки сети
- Сбои при загрузке активов
- Неправильный HTML
- Глубокая рекурсия
- Ошибки файловой системы
Ответы об ошибках имеют следующий формат:
Copy
Успешные ответы:
Copy
You must be authenticated.
local-only server
The server can only run on the client's local machine because it depends on local resources.
Tools
Этот сервер позволяет пользователям загружать целые веб-сайты и их ресурсы для автономного доступа, поддерживая настраиваемые параметры глубины и параллелизма.
- Функции
- Установка
- Другое использование, о котором вам не нужно беспокоиться и которое может быть галлюцинаторным, лол:
- Структура вывода
- Разработка
- Внося вклад
- Лицензия
- Обработка ошибок
Related Resources
Related MCP Servers
- AsecurityAlicenseAqualityThis server facilitates interaction with Keboola's Storage API, enabling users to browse and manage project buckets, tables, and components efficiently through Claude Desktop.Last updated -714PythonMIT License
- AsecurityAlicenseAqualityThis server facilitates interaction with cosense/Scrapbox projects, enabling users to retrieve, list, search, and create pages while supporting various query operations and secure access to private projects.Last updated -412TypeScriptMIT License
- -securityFlicense-qualityA server for downloading, processing, and managing YouTube content with features like video quality selection, format conversion, and metadata extraction.Last updated -JavaScript
- -security-license-qualityA server that enables web scraping of difficult-to-access websites affected by bot detection, captchas, or geolocation restrictions, returning results in either HTML or Markdown format.Last updated -1JavaScript