Integrations
Uses OpenAI's API for generating embeddings to power the semantic search functionality over PyTorch documentation
Provides semantic search capabilities over PyTorch documentation, allowing users to find relevant documentation, APIs, code examples, and error messages using vector embeddings and semantic similarity
PyTorch 文档搜索工具(项目已暂停)
具有命令行功能的 PyTorch 文档的语义搜索原型。
当前状态(2025 年 4 月 19 日)
⚠️ 该项目目前暂停,以进行重大重新设计。
该工具为 PyTorch 文档提供了一个基本的命令行搜索界面,但在多个方面仍需要进行实质性改进。虽然核心嵌入和搜索功能已基本可用,但相关性质量和 MCP 集成仍需要进一步开发。
示例输出
什么有效
✅基本语义搜索:用于查询 PyTorch 文档的命令行界面
✅矢量数据库:功能性 ChromaDB 集成,用于存储和查询嵌入
✅内容区分:区分代码和文本内容
✅交互模式:在会话中运行连续交互式查询的选项
需要改进的地方
❌相关性质量:中等相似度得分(0.35-0.37)表示结果不理想
❌内容覆盖:专业主题在数据库中可能没有足够的代表性
❌分块策略:当前方法会在任意点处破坏文档
❌结果呈现:片段太短,缺乏足够的背景信息
❌ MCP 集成:连接超时问题阻碍了 Claude Code 集成
入门
环境设置
创建包含所有依赖项的 conda 环境:
API 密钥设置
该工具需要 OpenAI API 密钥来生成嵌入:
命令行用法
项目架构
ptsearch/core/
:核心搜索功能(数据库、嵌入、搜索)ptsearch/config/
:配置管理ptsearch/utils/
:实用程序函数和日志记录scripts/
:命令行工具data/
:嵌入式文档和数据库ptsearch/protocol/
:MCP 协议处理(当前未使用)ptsearch/transport/
:传输实现(STDIO、SSE)(当前未使用)
该项目为何暂停
在评估当前实施情况后,我们发现了几个需要进行重大重新设计的挑战:
- 数据质量问题:当前的嵌入方法无法有效捕捉 PyTorch 概念之间的语义关系。相关性得分在 0.35-0.37 左右,对于高质量的用户体验来说太低了。
- 分块限制:我们当前的方法根据字符数而不是概念边界将文档分成块,从而导致结果不完整。
- MCP 集成问题:尽管有多种实现方法,但在尝试与 Claude Code 集成时,我们遇到了持续的超时问题:
- 建立连接时 STDIO 集成失败
- 带有 SSE 传输的 Flask 服务器无法维持稳定的连接
- UVX部署也遇到了类似的超时问题
未来路线图
当开发恢复时,我们计划重点关注:
- 改进的分块策略:实现保留概念边界的语义分块
- 增强的结果格式:提供更多上下文和更好的片段选择
- 扩展文档覆盖范围:确保全面涵盖所有 PyTorch 主题
- MCP 集成重新设计:与 Claude 团队合作解决超时问题
发展
运行测试
格式代码
执照
MIT 许可证
Related MCP Servers
- AsecurityAlicenseAqualityFacilitates web search capabilities using Perplexity's API, allowing users to retrieve search results through Claude's interface.Last updated -12JavaScriptMIT License
- -securityFlicense-qualityProvides access to PyTorch CI/CD analytics data including workflows, jobs, test runs, and log analysis through an MCP interface.Last updated -Python
- AsecurityAlicenseAqualityAn MCP server that enables users to fetch Python documentation using the Brave Search API through natural language queries.Last updated -1JavaScriptApache 2.0
- -security-license-qualityA Python-based local indexing server that creates semantic search capabilities for codebases using ChromaDB, allowing Cursor IDE to perform vector searches on your code without sending data to external services.Last updated -5Python