MCP 网站下载器
简单的 MCP 服务器,用于下载文档网站并准备进行 RAG 索引。
特征
下载完整的文档站点,无论如何都是大块的。
维护链接结构和导航,不是真的。哈哈
下载并组织资产(CSS、JS、图像),但对 AI 来说并不是很友好,而且可能都需要某种解析或矢量化到数据库或类似的东西中。
为 RAG 系统创建干净的索引,目前似乎在每个文件夹中都创建了一个索引,甚至没有查看它。
简单的单一用途 MCP 接口,是的。
安装
分叉并下载,然后 cd 到存储库。
将其放入您的 claude_desktop_config.json 中,并使用您自己的路径:
其他用法你不必担心,可能会产生幻觉,哈哈:
启动服务器:
通过 Claude Desktop 或其他 MCP 客户端使用:
输出结构
发展
该服务器遵循标准MCP架构:
成分
server.py
:处理工具注册和请求的主要 MCP 服务器实现core.py
:核心网站下载功能,具有适当的资产处理utils.py
:用于文件处理和 URL 处理的辅助实用程序
设计原则
单一职责
每个模块都有一个明确的目的
服务器处理 MCP 接口
核心处理下载
Utils 处理常见操作
清洁结构
保持原有网站结构
按类型组织资产
为 RAG 系统创建清晰的索引
稳健运行
正确的错误处理
合理的深度限制
资产下载验证
清理 URL/路径处理
RAG指数
rag_index.json
文件包含:
贡献
分叉存储库
创建功能分支
进行更改
提交拉取请求
执照
MIT 许可证 - 请参阅许可证文件
错误处理
服务器处理常见问题:
无效的 URL
网络错误
资产下载失败
格式错误的 HTML
深度递归
文件系统错误
错误响应遵循以下格式:
成功响应:
local-only server
The server can only run on the client's local machine because it depends on local resources.
Tools
该服务器使用户能够下载整个网站及其资产以供离线访问,支持可配置的深度和并发设置。
Related Resources
Related MCP Servers
- AsecurityAlicenseAqualityThis server enables LLMs to retrieve and process content from web pages, converting HTML to markdown for easier consumption.Last updated -170,373MIT License
- AsecurityFlicenseAqualityProvides a tool to download entire websites using wget. It preserves the website structure and converts links to work locally.Last updated -1138
- AsecurityAlicenseAqualityAn advanced web browsing server enabling headless browser interactions via a secure API, providing features like navigation, content extraction, element interaction, and screenshot capture.Last updated -623MIT License
- -securityFlicense-qualityThis server provides an interface for performing basic file system operations such as navigation, reading, writing, and file analysis, allowing users to manage directories and files efficiently.Last updated -4