Загрузчик веб-сайта MCP
Простой MCP-сервер для загрузки веб-сайтов с документацией и подготовки их к индексации RAG.
Функции
Загружает полные сайты документации, во всяком случае большие куски.
Сохраняет структуру ссылок и навигацию, не совсем. lol
Загружает и организует ресурсы (CSS, JS, изображения), но не очень дружелюбен к ИИ и, вероятно, все это требует некоторого анализа или векторизации в базу данных или чего-то в этом роде.
Создает чистый индекс для систем RAG, в настоящее время, похоже, создает индекс в каждой папке, даже не смотрел на это.
Простой специализированный интерфейс MCP, да.
Установка
Сделайте форк и загрузите, перейдите в репозиторий.
Добавьте это в ваш claude_desktop_config.json с вашими собственными путями:
Другое использование, о котором вам не нужно беспокоиться и которое может быть галлюцинаторным, лол:
Запустите сервер:
Использование через Claude Desktop или другие клиенты MCP:
Структура вывода
Разработка
Сервер ��оответствует стандартной архитектуре MCP:
Компоненты
server.py
: Основная реализация сервера MCP, которая обрабатывает регистрацию инструментов и запросыcore.py
: основная функциональность загрузки веб-сайта с правильной обработкой ресурсовutils.py
: Вспомогательные утилиты для обработки файлов и URL-адресов
Принципы проектирования
Единая ответственность
Каждый модуль имеет одну ясную цель
Сервер обрабатывает интерфейс MCP
Ядро обрабатывает загрузку
Utils выполняет общие операции
Чистая структура
Сохраняет исходную структуру сайта
Организует активы по типу
Создает понятный индекс для систем RAG
Надежная работа
Правильная обработка ошибок
Разумные пределы глубины
Проверка загрузки активов
Чистая обработка URL/путей
Индекс РАГ
Файл rag_index.json
содержит:
Внося вклад
Форк репозитория
Создать ветку функций
Внесите изменения
Отправить запрос на извлечение
Лицензия
Лицензия MIT — см. файл LICENSE
Обработка ошибок
Сервер обрабатывает распространенные проблемы:
Недействительные URL-адреса
Ошибки сети
Сбои при загрузке активов
Неправильный HTML
Глубокая рекурсия
Ошибки файловой системы
Ответы об ошибках имеют следующий формат:
Успешные ответы:
local-only server
The server can only run on the client's local machine because it depends on local resources.
Tools
Этот сервер позволяет пользователям загружать целые веб-сайты и их ресурсы для автономного доступа, поддерживая настраиваемые параметры глубины и параллелизма.
- Функции
- Установка
- Другое использование, о котором вам не нужно беспокоиться и которое может быть галлюцинаторным, лол:
- Структура вывода
- Разработка
- Внося вклад
- Лицензия
- Обработка ошибок
Related Resources
Related MCP Servers
- AsecurityAlicenseAqualityThis server enables LLMs to retrieve and process content from web pages, converting HTML to markdown for easier consumption.Last updated -170,957MIT License
- AsecurityFlicenseAqualityProvides a tool to download entire websites using wget. It preserves the website structure and converts links to work locally.Last updated -1138
- AsecurityAlicenseAqualityAn advanced web browsing server enabling headless browser interactions via a secure API, providing features like navigation, content extraction, element interaction, and screenshot capture.Last updated -623MIT License
- -securityFlicense-qualityThis server provides an interface for performing basic file system operations such as navigation, reading, writing, and file analysis, allowing users to manage directories and files efficiently.Last updated -4