Provides knowledge base functionality built on ChromaDB for document management, with tools for adding, searching, listing, deleting documents and retrieving statistics, all implemented in Python.
基于ChromaDB的本地知识库系统
项目简介
本项目是一个基于 ChromaDB 的本地知识库系统,支持 txt 和 pdf 文档的自动分块、向量化存储与高效相似度检索。适合个人、企业、内网环境下的知识管理。
新增功能: 已支持 MCP(Model Context Protocol),让AI助手可以直接调用知识库功能!
功能特点
- 基于 ChromaDB,支持高效向量检索
- 支持 txt 和 pdf 文件(PDF 需安装 PyPDF2 或 PyMuPDF)
- 自动分块、嵌入向量化、余弦相似度检索
- 本地持久化存储,数据安全可控
- 命令行一键添加、查询、删除、统计
- 文档去重、分块管理
- MCP工具支持 - AI助手可直接调用知识库功能
安装依赖
推荐使用 Python 3.10 及以上(3.12最佳),并安装如下依赖:
如需更强嵌入效果,可安装 sentence-transformers(首次需联网下载模型):
目录结构
快速开始
命令行使用
- 准备文档
- 将 txt/pdf 文件放入
documents/
目录
- 将 txt/pdf 文件放入
- 添加文档到知识库
- 查询知识库
- 列出所有文档
- 删除文档
- 查看统计信息
MCP工具使用
AI助手现在可以直接调用知识库功能:
命令行用法
- 添加文档:
add <文件路径>
- 检索知识:
search <查询内容> [--top-k N]
- 列出文档:
list
- 删除文档:
delete <文档名>
- 统计信息:
stats
- 指定数据库:
--db <数据库文件夹>
MCP工具
支持的MCP工具
add_document
- 添加文档到知识库search_documents
- 搜索知识库list_documents
- 列出所有文档delete_document
- 删除文档get_stats
- 获取统计信息batch_add_documents
- 批量添加文档
MCP配置
在MCP客户端配置中添加:
常见问题
- PDF无法读取:请确保已安装 PyPDF2 或 PyMuPDF
- 检索无结果:请确认已成功添加文档
- 数据库损坏:可删除 knowledge_base 文件夹重新初始化
- 编码问题:请确保文档为 UTF-8 编码
- MCP连接失败:检查Python路径和依赖安装
如需详细命令示例和进阶用法,请参见 使用指南.md
和 MCP使用说明.md
。
This server cannot be installed
A local knowledge base system based on ChromaDB that supports automatic chunking, vector storage, and efficient similarity retrieval of txt and pdf documents, with MCP protocol support allowing AI assistants to directly access knowledge management functions.
Related MCP Servers
- -securityFlicense-qualityEnables LLMs to perform semantic search and document management using ChromaDB, supporting natural language queries with intuitive similarity metrics for retrieval augmented generation applications.Last updated -Python
- -securityAlicense-qualityEnhances the MCP memory server by implementing PouchDB for robust document storage and enabling the creation and management of a knowledge graph that captures interactions via language models.Last updated -JavaScriptMIT License
Chroma MCP Serverofficial
AsecurityAlicenseAqualityA server that provides data retrieval capabilities powered by Chroma embedding database, enabling AI models to create collections over generated data and user inputs, and retrieve that data using vector search, full text search, and metadata filtering.Last updated -12199PythonApache 2.0- -security-license-qualityA Python-based local indexing server that creates semantic search capabilities for codebases using ChromaDB, allowing Cursor IDE to perform vector searches on your code without sending data to external services.Last updated -5Python