local-only server
The server can only run on the client’s local machine because it depends on local resources.
MCP 网站下载器
简单的 MCP 服务器,用于下载文档网站并准备进行 RAG 索引。
特征
- 下载完整的文档站点,无论如何都是大块的。
- 维护链接结构和导航,不是真的。哈哈
- 下载并组织资产(CSS、JS、图像),但对 AI 来说并不是很友好,而且可能都需要某种解析或矢量化到数据库或类似的东西中。
- 为 RAG 系统创建干净的索引,目前似乎在每个文件夹中都创建了一个索引,甚至没有查看它。
- 简单的单一用途 MCP 接口,是的。
安装
分叉并下载,然后 cd 到存储库。
Copy
将其放入您的 claude_desktop_config.json 中,并使用您自己的路径:
Copy
其他用法你不必担心,可能会产生幻觉,哈哈:
- 启动服务器:
Copy
- 通过 Claude Desktop 或其他 MCP 客户端使用:
Copy
输出结构
Copy
发展
该服务器遵循标准MCP架构:
Copy
成分
server.py
:处理工具注册和请求的主要 MCP 服务器实现core.py
:核心网站下载功能,具有适当的资产处理utils.py
:用于文件处理和 URL 处理的辅助实用程序
设计原则
- 单一职责
- 每个模块都有一个明确的目的
- 服务器处理 MCP 接口
- 核心处理下载
- Utils 处理常见操作
- 清洁结构
- 保持原有网站结构
- 按类型组织资产
- 为 RAG 系统创建清晰的索引
- 稳健运行
- 正确的错误处理
- 合理的深度限制
- 资产下载验证
- 清理 URL/路径处理
RAG指数
rag_index.json
文件包含:
Copy
贡献
- 分叉存储库
- 创建功能分支
- 进行更改
- 提交拉取请求
执照
MIT 许可证 - 请参阅许可证文件
错误处理
服务器处理常见问题:
- 无效的 URL
- 网络错误
- 资产下载失败
- 格式错误的 HTML
- 深度递归
- 文件系统错误
错误响应遵循以下格式:
Copy
成功响应:
Copy
You must be authenticated.
Tools
该服务器使用户能够下载整个网站及其资产以供离线访问,支持可配置的深度和并发设置。
- Features
- Installation
- Other Usage you don't need to worry about and may be hallucinatory lol:
- Output Structure
- Development
- Contributing
- License
- Error Handling