PyTorch Documentation Search Tool

Integrations

  • Uses OpenAI's API for generating embeddings to power the semantic search functionality over PyTorch documentation

  • Provides semantic search capabilities over PyTorch documentation, allowing users to find relevant documentation, APIs, code examples, and error messages using vector embeddings and semantic similarity

PyTorch ドキュメント検索ツール (プロジェクト一時停止)

コマンドライン機能を備えた PyTorch ドキュメントのセマンティック検索プロトタイプ。

現在の状況(2025年4月19日)

⚠️ このプロジェクトは現在、大幅な再設計のため一時停止されています。

このツールはPyTorchドキュメント用の基本的なコマンドライン検索インターフェースを提供していますが、いくつかの領域で大幅な改善が必要です。コアとなる埋め込み機能と検索機能は基本的なレベルで動作しますが、関連性品質とMCPとの統合には追加の開発が必要です。

出力例

$ python scripts/search.py "How are multi-attention heads plotted out in PyTorch?" Found 5 results for 'How are multi-attention heads plotted out in PyTorch?': --- Result 1 (code) --- Title: plot_visualization_utils.py Source: plot_visualization_utils.py Score: 0.3714 Snippet: # models. Let's start by analyzing the output of a Mask-RCNN model. Note that... --- Result 2 (code) --- Title: plot_transforms_getting_started.py Source: plot_transforms_getting_started.py Score: 0.3571 Snippet: https://github.com/pytorch/vision/tree/main/gallery/...

何が効果的か

基本的なセマンティック検索: PyTorch ドキュメントをクエリするためのコマンドラインインターフェース
ベクターデータベース: 埋め込みの保存とクエリのための機能的な ChromaDB 統合
コンテンツの差別化:コードとテキストコンテンツを区別します
インタラクティブモード: セッション中に継続的にインタラクティブクエリを実行するオプション

改善が必要な点

関連性の質: 中程度の類似度スコア (0.35-0.37) は、最適ではない結果を示します。
コンテンツの範囲: 専門的なトピックはデータベースに十分に収録されていない可能性があります
チャンク化戦略: 現在のアプローチでは、ドキュメントが任意のポイントで分割されます
結果のプレゼンテーション: スニペットが短すぎて十分なコンテキストが欠けている
MCP 統合: 接続タイムアウトの問題により、Claude Code との統合が不可能

はじめる

環境設定

すべての依存関係を含む conda 環境を作成します。

conda env create -f environment.yml conda activate pytorch_docs_search

APIキーの設定

このツールでは、埋め込み生成に OpenAI API キーが必要です。

export OPENAI_API_KEY=your_key_here

コマンドラインの使用法

# Search with a direct query python scripts/search.py "your search query here" # Run in interactive mode python scripts/search.py --interactive # Additional options python scripts/search.py "query" --results 5 # Limit to 5 results python scripts/search.py "query" --filter code # Only code results python scripts/search.py "query" --json # Output in JSON format

プロジェクトアーキテクチャ

  • ptsearch/core/ : コア検索機能 (データベース、埋め込み、検索)
  • ptsearch/config/ : 構成管理
  • ptsearch/utils/ : ユーティリティ関数とログ
  • scripts/ : コマンドラインツール
  • data/ : 埋め込みドキュメントとデータベース
  • ptsearch/protocol/ : MCP プロトコル処理 (現在未使用)
  • ptsearch/transport/ : トランスポート実装 (STDIO、SSE) (現在未使用)

このプロジェクトが一時停止されている理由

現在の実装を評価した結果、大幅な再設計が必要ないくつかの課題が判明しました。

  1. データ品質の問題:現在の埋め込みアプローチでは、PyTorch 概念間の意味的関係を十分に効果的に捉えることができません。関連性スコアが 0.35~0.37 程度では、質の高いユーザーエクスペリエンスを提供するには低すぎます。
  2. チャンク化の制限: 現在の方法では、概念的な境界ではなく文字数に基づいてドキュメントをチャンクに分割するため、結果が断片化されます。
  3. MCP 統合の問題: 複数の実装アプローチにもかかわらず、Claude Code との統合を試行すると、永続的なタイムアウトの問題が発生しました。
    • 接続確立時にSTDIO統合に失敗しました
    • SSEトランスポートを備えたFlaskサーバーは安定した接続を維持できませんでした
    • UVXの展開でも同様のタイムアウトの問題が発生しました

将来のロードマップ

開発が再開されたら、次のことに重点を置く予定です。

  1. 改善されたチャンキング戦略:概念的境界を維持するセマンティックチャンキングを実装する
  2. 強化された結果フォーマット: より多くのコンテキストとより優れたスニペットの選択を提供します
  3. ドキュメント範囲の拡張: PyTorch のすべてのトピックを包括的に表現します
  4. MCP統合の再設計:Claudeチームと協力してタイムアウトの問題を解決します

発達

テストの実行

pytest -v tests/

フォーマットコード

black .

ライセンス

MITライセンス

-
security - not tested
F
license - not found
-
quality - not tested

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

PyTorch ドキュメントに対するセマンティック検索機能を提供し、ユーザーは Claude Code 統合を通じて関連するドキュメント、API、コード例、エラー メッセージを検索できるようになります。

  1. 現在の状況(2025年4月19日)
    1. 出力例
  2. 何が効果的か
    1. 改善が必要な点
      1. はじめる
        1. 環境設定
        2. APIキーの設定
      2. コマンドラインの使用法
        1. プロジェクトアーキテクチャ
          1. このプロジェクトが一時停止されている理由
            1. 将来のロードマップ
              1. 発達
                1. テストの実行
                2. フォーマットコード
              2. ライセンス

                Related MCP Servers

                • A
                  security
                  A
                  license
                  A
                  quality
                  Facilitates web search capabilities using Perplexity's API, allowing users to retrieve search results through Claude's interface.
                  Last updated -
                  1
                  2
                  JavaScript
                  MIT License
                • -
                  security
                  F
                  license
                  -
                  quality
                  Provides access to PyTorch CI/CD analytics data including workflows, jobs, test runs, and log analysis through an MCP interface.
                  Last updated -
                  Python
                • A
                  security
                  A
                  license
                  A
                  quality
                  An MCP server that enables users to fetch Python documentation using the Brave Search API through natural language queries.
                  Last updated -
                  1
                  JavaScript
                  Apache 2.0
                  • Apple
                • -
                  security
                  -
                  license
                  -
                  quality
                  A Python-based local indexing server that creates semantic search capabilities for codebases using ChromaDB, allowing Cursor IDE to perform vector searches on your code without sending data to external services.
                  Last updated -
                  5
                  Python

                View all related MCP servers

                ID: guvuy644f5