Einbetten des MCP-Servers
Eine von txtai unterstützte Model Context Protocol (MCP)-Serverimplementierung, die über eine standardisierte Schnittstelle semantische Suche, Wissensgraphenfunktionen und KI-gesteuerte Textverarbeitung bietet.
Die Leistungsfähigkeit von txtai: All-in-One-Embeddings-Datenbank
Dieses Projekt nutzt txtai , eine All-in-One-Einbettungsdatenbank für RAG, die semantische Suche, Wissensgraphenkonstruktion und Sprachmodell-Workflows nutzt. txtai bietet mehrere wichtige Vorteile:
- Einheitliche Vektordatenbank : Kombiniert Vektorindizes, Graphnetzwerke und relationale Datenbanken auf einer einzigen Plattform
- Semantische Suche : Finden Sie Informationen basierend auf der Bedeutung, nicht nur auf Schlüsselwörtern
- Knowledge Graph-Integration : Erstellen und fragen Sie automatisch Knowledge Graphen aus Ihren Daten ab
- Tragbare Wissensdatenbanken : Speichern Sie ganze Wissensdatenbanken als komprimierte Archive (.tar.gz), die einfach geteilt und geladen werden können
- Erweiterbares Pipeline-System : Verarbeiten Sie Text, Dokumente, Audio, Bilder und Videos über eine einheitliche API
- Local-First-Architektur : Führen Sie alles lokal aus, ohne Daten an externe Dienste zu senden
Wie es funktioniert
Das Projekt enthält ein Tool zum Erstellen einer Wissensdatenbank und einen MCP-Server. Das Tool zum Erstellen einer Wissensdatenbank ist eine Befehlszeilenschnittstelle zum Erstellen und Verwalten von Wissensdatenbanken. Der MCP-Server bietet eine standardisierte Schnittstelle für den Zugriff auf die Wissensdatenbank.
Es ist nicht erforderlich, das Tool zum Erstellen einer Wissensdatenbank zu verwenden. Sie können jederzeit eine Wissensdatenbank über die Programmierschnittstelle von txtai erstellen, indem Sie ein Python-Skript schreiben oder sogar ein Jupyter-Notebook verwenden. Sofern die Wissensdatenbank mit txtai erstellt wurde, kann sie vom MCP-Server geladen werden. Noch besser: Die Wissensdatenbank kann ein Ordner im Dateisystem oder eine exportierte .tar.gz-Datei sein. Geben Sie sie einfach an den MCP-Server weiter, und er lädt sie.
1. Erstellen Sie eine Wissensdatenbank mit kb_builder
Das Modul kb_builder
bietet eine Befehlszeilenschnittstelle zum Erstellen und Verwalten von Wissensdatenbanken:
- Verarbeiten Sie Dokumente aus verschiedenen Quellen (Dateien, Verzeichnisse, JSON)
- Text extrahieren und Einbettungen erstellen
- Wissensgraphen automatisch erstellen
- Exportieren portabler Wissensdatenbanken
Beachten Sie, dass die Funktionalität möglicherweise eingeschränkt ist und derzeit nur aus praktischen Gründen bereitgestellt wird.
2. Starten Sie den MCP-Server
Der MCP-Server bietet eine standardisierte Schnittstelle für den Zugriff auf die Wissensdatenbank:
- Semantische Suchfunktionen
- Abfrage und Visualisierung von Wissensgraphen
- Textverarbeitungs-Pipelines (Zusammenfassung, Extraktion usw.)
- Vollständige Konformität mit dem Model Context Protocol
Installation
Empfohlen: Verwenden von uv mit Python 3.10+
Für optimale Ergebnisse empfehlen wir die Verwendung von uv mit Python 3.10 oder neuer. Dies ermöglicht ein besseres Abhängigkeitsmanagement und gewährleistet konsistentes Verhalten.
Hinweis : Wir fixieren Transformers auf Version 4.49.0, um Veraltungswarnungen zu
transformers.agents.tools
zu vermeiden, die ab Version 4.50.0 erscheinen. Wenn Sie eine neuere Version von Transformers verwenden, werden diese Warnungen möglicherweise angezeigt, beeinträchtigen jedoch nicht die Funktionalität.
Verwenden von conda
Aus der Quelle
Verwenden von UV (schnellere Alternative)
Verwendung von uvx (keine Installation erforderlich)
Mit uvx können Sie Pakete direkt von PyPI ausführen, ohne sie zu installieren:
Befehlszeilenverwendung
Aufbau einer Wissensdatenbank
Sie können die von PyPI installierten Befehlszeilentools, das Python-Modul direkt oder die praktischen Shell-Skripte verwenden:
Verwenden der installierten PyPI-Befehle
Verwendung von uvx (keine Installation erforderlich)
Verwenden des Python-Moduls
Verwenden der Convenience-Skripte
Das Repository enthält praktische Wrapper-Skripte, die das Erstellen und Durchsuchen von Wissensdatenbanken erleichtern:
Führen Sie ./scripts/kb_build.sh --help
oder ./scripts/kb_search.sh --help
aus, um weitere Optionen zu erhalten.
Starten des MCP-Servers
Verwenden des PyPI-Installed-Befehls
Verwendung von uvx (keine Installation erforderlich)
Verwenden des Python-Moduls
MCP-Serverkonfiguration
Der MCP-Server wird mithilfe von Umgebungsvariablen oder Befehlszeilenargumenten konfiguriert, nicht mithilfe von YAML-Dateien. YAML-Dateien werden nur zum Konfigurieren von txtai-Komponenten beim Aufbau der Wissensdatenbank verwendet.
So konfigurieren Sie den MCP-Server:
Allgemeine Konfigurationsoptionen:
--embeddings
: Pfad zur Wissensdatenbank (erforderlich)--host
: Hostadresse, an die gebunden werden soll (Standard: localhost)--port
: Port, auf dem gelauscht wird (Standard: 8000)--transport
: Zu verwendendes Transportmittel, entweder „sse“ oder „stdio“ (Standard: stdio)--enable-causal-boost
: Aktivieren Sie die Funktion „Causal Boost“ für eine verbesserte Relevanzbewertung--causal-config
: Pfad zur benutzerdefinierten YAML-Konfigurationsdatei für kausalen Boost
Konfigurieren von LLM-Clients zur Verwendung des MCP-Servers
Um einen LLM-Client für die Verwendung des MCP-Servers zu konfigurieren, müssen Sie eine MCP-Konfigurationsdatei erstellen. Hier ist ein Beispiel mcp_config.json
:
Direkte Verwendung des Servers
Wenn Sie eine virtuelle Python-Umgebung zur Installation des Servers verwenden, können Sie die folgende Konfiguration verwenden. Beachten Sie, dass ein MCP-Host wie Claude keine Verbindung zum Server herstellen kann, wenn Sie eine virtuelle Umgebung verwenden. Sie müssen den absoluten Pfad zur ausführbaren Python-Datei der virtuellen Umgebung verwenden, in der Sie beispielsweise „pip install“ oder „uv pip install“ ausgeführt haben.
Verwenden des Systemstandard-Python
Wenn Sie das Standard-Python Ihres Systems verwenden, können Sie die folgende Konfiguration verwenden:
Alternativ, wenn Sie uvx verwenden, vorausgesetzt, Sie haben uvx über „brew install uvx“ usw. in Ihrem System installiert, oder Sie haben uvx installiert und global zugänglich gemacht über:
Dadurch wird ein symbolischer Link von Ihrer benutzerspezifischen Installation zu einem systemweiten Speicherort erstellt. Für macOS-Anwendungen wie Claude Desktop können Sie den systemweiten Pfad ändern, indem Sie eine launchd-Konfigurationsdatei erstellen oder bearbeiten:
Fügen Sie diesen Inhalt hinzu:
Dann laden Sie es:
Damit dies wirksam wird, müssen Sie Ihren Computer jedoch neu starten.
Platzieren Sie diese Konfigurationsdatei an einem für Ihren LLM-Client zugänglichen Ort und konfigurieren Sie ihn für die Verwendung. Die genauen Konfigurationsschritte hängen von Ihrem LLM-Client ab.
Erweiterte Wissensdatenbankkonfiguration
Zum Erstellen einer Wissensdatenbank mit txtai ist eine YAML-Konfigurationsdatei erforderlich, die verschiedene Aspekte des Einbettungsprozesses steuert. Diese Konfiguration wird vom Tool kb_builder
verwendet, nicht vom MCP-Server selbst.
Möglicherweise müssen Segmentierungs-/Chunking-Strategien, Einbettungsmodelle und Bewertungsmethoden angepasst sowie die Graphenkonstruktion, das kausale Boosting, die Gewichte der Hybridsuche und mehr konfiguriert werden.
Glücklicherweise bietet txtai ein leistungsstarkes YAML-Konfigurationssystem, das keine Programmierung erfordert. Hier ist ein Beispiel für eine umfassende Konfiguration zum Aufbau einer Wissensdatenbank:
Konfigurationsbeispiele
Das Verzeichnis src/kb_builder/configs
enthält Konfigurationsvorlagen für verschiedene Anwendungsfälle und Speicher-Backends:
Speicher- und Backend-Konfigurationen
memory.yml
: In-Memory-Vektoren (am schnellsten für die Entwicklung, keine Persistenz)sqlite-faiss.yml
: SQLite für Inhalte + FAISS für Vektoren (lokale dateibasierte Persistenz)postgres-pgvector.yml
: PostgreSQL + pgvector (produktionsbereit mit vollständiger Persistenz)
Domänenspezifische Konfigurationen
base.yml
: Basiskonfigurationsvorlagecode_repositories.yml
: Optimiert für Code-Repositoriesdata_science.yml
: Konfiguriert für Data-Science-Dokumentegeneral_knowledge.yml
: Allgemeine Wissensdatenbankresearch_papers.yml
: Optimiert für wissenschaftliche Arbeitentechnical_docs.yml
: Konfiguriert für technische Dokumentation
Diese können Sie als Ausgangspunkt für Ihre eigenen Konfigurationen verwenden:
Erweiterte Funktionen
Funktionen des Knowledge Graph
Der MCP-Server nutzt die integrierte Graphenfunktionalität von txtai, um leistungsstarke Wissensgraphenfunktionen bereitzustellen:
- Automatische Graphenkonstruktion : Erstellen Sie automatisch Wissensgraphen aus Ihren Dokumenten
- Graph Traversal : Navigieren Sie durch verwandte Konzepte und Dokumente
- Pfadfindung : Entdecken Sie Verbindungen zwischen verschiedenen Informationen
- Community-Erkennung : Identifizieren Sie Cluster verwandter Informationen
Kausaler Verstärkungsmechanismus
Der MCP-Server verfügt über einen ausgeklügelten Mechanismus zur kausalen Verstärkung, der die Suchrelevanz durch Identifizierung und Priorisierung kausaler Beziehungen verbessert:
- Mustererkennung : Erkennt kausale Sprachmuster sowohl in Abfragen als auch in Dokumenten
- Mehrsprachige Unterstützung : Wendet automatisch geeignete Muster basierend auf der erkannten Abfragesprache an
- Konfigurierbare Boost-Multiplikatoren : Verschiedene Arten von kausalen Übereinstimmungen erhalten anpassbare Boost-Faktoren
- Verbesserte Relevanz : Ergebnisse, die kausale Zusammenhänge erklären, werden in den Suchergebnissen priorisiert
Dieser Mechanismus verbessert die Antworten auf „Warum“- und „Wie“-Fragen erheblich, indem er Inhalte bereitstellt, die die Zusammenhänge zwischen Konzepten erklären. Die Konfiguration des kausalen Boostings ist über YAML-Dateien hochgradig anpassbar und ermöglicht die Anpassung an verschiedene Domänen und Sprachen.
Lizenz
MIT-Lizenz – Einzelheiten finden Sie in der Datei „LICENSE“
This server cannot be installed
hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
Ein MCP-Server, der portabel, lokal, einfach und komfortabel ist und den semantischen/graphenbasierten Abruf von TXTAI-Embedding-Datenbanken unterstützt. Jede TXTAI-Embedding-Datenbank im Tar.gz-Format kann geladen werden.
- Die Leistungsfähigkeit von txtai: All-in-One-Embeddings-Datenbank
- Wie es funktioniert
- Installation
- Befehlszeilenverwendung
- MCP-Serverkonfiguration
- Konfigurieren von LLM-Clients zur Verwendung des MCP-Servers
- Erweiterte Wissensdatenbankkonfiguration
- Erweiterte Funktionen
- Lizenz
Related Resources
Related MCP Servers
- -securityAlicense-qualityA Model Context Protocol (MCP) server that enables semantic search and retrieval of documentation using a vector database (Qdrant). This server allows you to add documentation from URLs or local files and then search through them using natural language queries.Last updated -1474JavaScriptApache 2.0
- -securityAlicense-qualitytxtai is an all-in-one embeddings database for semantic search, LLM orchestration and language model workflows. All functionality can be served via it's API and the API supports MCP. Docs: https://neuml.github.io/txtai/api/mcp/Last updated -11,005PythonApache 2.0
- -securityAlicense-qualityAn MCP server implementing memory solutions for data-rich applications using HippoRAG for efficient knowledge graph capabilities, enabling search across multiple sources including uploaded files.Last updated -PythonMIT License
- -securityFlicense-qualityAn MCP server that enables interaction with Markdown knowledge bases, allowing users to search and retrieve content by tags, text, URL, or date range from their local markdown files.Last updated -3Python