Python代码库分析RAG系统
该系统使用抽象语法树 (AST) 分析 Python 代码,将提取的信息(函数、类、调用、变量等)存储在 Weaviate 矢量数据库中,并通过模型上下文协议 (MCP) 服务器提供查询和理解代码库的工具。它利用 Google 的 Gemini 模型生成嵌入和自然语言描述/答案。
特征
**代码扫描:**解析 Python 文件以识别代码元素(函数、类、导入、调用、赋值)及其关系。摘录:
基本信息:名称、类型、文件路径、行号、代码片段、文档字符串。
函数/方法详细信息:参数、返回类型、签名、装饰器。
范围信息:父范围(类/函数)UUID、可读 ID(例如,
file:type:name:line)、基类名称。使用信息:范围内的属性访问、调用关系(部分跟踪)。
**向量存储:**使用 Weaviate 存储代码元素及其向量嵌入(启用 LLM 生成时)。
**LLM 扩展(可选且为后台):**使用 Gemini 为函数和类生成语义描述和嵌入。此功能现在作为扫描后触发的后台任务运行,或手动运行。可通过
.env文件启用/禁用。**自动细化(可选和后台):**启用 LLM 生成时,使用上下文(调用者、被调用者、同级、相关变量)作为后台处理的一部分自动细化新函数/更新函数的描述。
**RAG 问答:**使用检索增强生成回答有关代码库的自然语言问题(需要启用 LLM 功能并完成后台处理)。
**用户说明:**允许用户向特定代码元素添加手动注释。
**可视化:**根据存储的关系生成 MermaidJS 调用图。
**MCP 服务器:**通过 MCP 工具公开分析和查询功能,管理代码库和活动代码库上下文。
**文件观察器(集成):**扫描代码库时自动启动(
scan_codebase),选择另一个代码库时自动停止(select_codebase)或删除代码库时自动停止(delete_codebase)。当活动代码库的文件发生变更时,触发重新分析并更新数据库。也可以通过start_watcher和stop_watcher工具手动控制。**代码库依赖关系:**允许定义扫描代码库之间的依赖关系(
add_codebase_dependency,remove_codebase_dependency)。**跨代码库查询:**支持跨活动代码库及其声明的依赖项进行搜索(
find_element)和提问(ask_question)。
Related MCP server: code2prompt-mcp
设置
**环境:**确保安装了 Python 3.10+ 和 Docker。
**Weaviate:**使用 Docker Compose 启动 Weaviate 实例:
docker-compose up -d**依赖项:**安装 Python 包:
pip install -r requirements.txt**API 密钥和配置:**在项目根目录下创建一个
.env文件并添加您的 Gemini API 密钥。您还可以配置其他设置:# --- Required --- GEMINI_API_KEY=YOUR_API_KEY_HERE # --- Optional --- # Set to true to enable background LLM description generation and refinement GENERATE_LLM_DESCRIPTIONS=true # Max concurrent background LLM tasks (embeddings/descriptions/refinements) LLM_CONCURRENCY=5 # ANALYZE_ON_STARTUP is no longer used. Scanning is done via the scan_codebase tool. # Specify Weaviate connection details if not using defaults # WEAVIATE_HOST=localhost # WEAVIATE_PORT=8080 # WEAVIATE_GRPC_PORT=50051 # Specify alternative Gemini models if desired # GENERATION_MODEL_NAME="models/gemini-pro" # EMBEDDING_MODEL_NAME="models/embedding-001" # Adjust Weaviate batch size # WEAVIATE_BATCH_SIZE=100 # SEMANTIC_SEARCH_LIMIT=5 # SEMANTIC_SEARCH_DISTANCE=0.7 # Watcher polling interval (seconds) # WATCHER_POLLING_INTERVAL=5**运行 MCP 服务器:**在单独的终端中启动服务器:
python src/code_analysis_mcp/mcp_server.py(确保此终端保持运行以使工具可用)
架构概述
该系统分析 Python 代码,将提取的信息存储在 Weaviate 矢量数据库中,并通过模型上下文协议 (MCP) 服务器提供查询和理解代码库的工具。它利用 Google 的 Gemini 模型生成嵌入和自然语言描述/答案。
主要模块有:
code_scanner.py:查找 Python 文件,使用 AST 解析它们,提取结构元素(函数、类、导入、调用等),并为 Weaviate 准备数据。weaviate_client.py:管理与 Weaviate 的连接,定义数据模式(CodeFile、CodeElement、CodebaseRegistry),并提供批量上传、查询、更新和删除数据的功能。rag.py:实现检索增强生成 (RAG),用于回答有关代码库的问题。它使用语义搜索查找相关的代码元素,并使用 LLM 来合成答案。mcp_server.py:设置 FastMCP 服务器,管理CodebaseRegistry集合中的代码库,处理活动代码库上下文(ACTIVE_CODEBASE_NAME),集成文件监视逻辑(包括自动启动/停止),管理代码库依赖关系,并将分析功能作为 MCP 工具公开,并提供详细的参数描述。visualization.py:根据存储的关系生成 MermaidJS 调用图。
系统使用 Weaviate 的多租户功能来管理CodeFile和CodeElement集合,其中租户 ID 是用户定义的codebase_name 。一个独立的非多租户CodebaseRegistry集合跟踪代码库元数据(名称、目录、状态、摘要、监视程序状态、依赖项)。服务器中的ACTIVE_CODEBASE_NAME全局变量确定查询的主要代码库租户。查询list_codebases ( find_element 、 ask_question )可以选择搜索存储在注册表中的活动代码库及其声明的依赖项。list_codebases 工具可用于查看所有代码库的状态和依赖项。
后台 LLM 处理用于生成代码元素的语义描述和嵌入。这是一个可选功能,可以通过.env文件启用/禁用。
服务器运行后,可以使用标准 MCP 自检方法直接从 MCP 服务器检索有关可用工具及其参数的详细信息。