Integrations
Powers the modern web interface with a React-based UI component library for document management and querying
Provides the backend framework that handles API requests, PDF processing, and vector storage operations
Supports version control for the project installation process
PDF RAG MCP Server
Ein leistungsstarkes Dokumenten-Wissensdatenbanksystem, das PDF-Verarbeitung, Vektorspeicherung und MCP (Model Context Protocol) nutzt, um semantische Suchfunktionen für PDF-Dokumente bereitzustellen. Mit diesem System können Sie PDF-Dokumente über eine moderne Weboberfläche oder über das MCP-Protokoll hochladen, verarbeiten und abfragen, um sie mit KI-Tools wie Cursor zu integrieren.
Merkmale
- Hochladen und Verarbeiten von PDF-Dokumenten : Laden Sie PDFs hoch und extrahieren, zerlegen und vektorisieren Sie Inhalte automatisch
- Echtzeit-Verarbeitungsstatus : WebSocket-basierte Echtzeit-Statusaktualisierungen während der Dokumentverarbeitung
- Semantische Suche : Vektorbasierte semantische Suche über alle verarbeiteten Dokumente
- MCP-Protokollunterstützung : Integration mit KI-Tools wie Cursor mithilfe des Model Context Protocol
- Moderne Weboberfläche : React/Chakra-UI-Frontend für Dokumentenverwaltung und -abfragen
- Schnelles Abhängigkeitsmanagement : Verwendet UV für effizientes Python-Abhängigkeitsmanagement
Systemarchitektur
Das System besteht aus:
- FastAPI-Backend : Verarbeitet API-Anfragen, PDF-Verarbeitung und Vektorspeicherung
- React Frontend : Bietet eine benutzerfreundliche Oberfläche zur Verwaltung von Dokumenten
- Vektordatenbank : Speichert Einbettungen für die semantische Suche
- WebSocket-Server : Bietet Echtzeit-Updates zur Dokumentenverarbeitung
- MCP-Server : Stellt die Wissensdatenbank MCP-kompatiblen Clients zur Verfügung
Schnellstart
Voraussetzungen
- Python 3.8 oder höher
- uv - Schneller Python-Paketinstaller und -Resolver
- Git
- Cursor (optional, für MCP-Integration)
Schnelle Installation und Start mit uv und run.py
- Klonen Sie das Repository:Copy
- Installieren Sie uv, falls Sie es noch nicht haben:Copy
- Installieren Sie Abhängigkeiten mit uv:Copy
- Starten Sie die Anwendung mit dem praktischen Skript:Copy
- Greifen Sie auf die Weboberfläche unter http://localhost:8000 zu
- Verwendung mit Cursor
Gehen Sie zu Einstellungen -> Cursor-Einstellungen -> MCP -> Neuen globalen MCP-Server hinzufügen und fügen Sie den folgenden Text in Ihre Cursor-Datei ~/.cursor/mcp.json ein. Weitere Informationen finden Sie in der Cursor-MCP-Dokumentation.
Sie können localhost auch in die Host-IP ändern, unter der Sie den Dienst bereitgestellt haben. Nachdem diese Konfiguration zum MCP-JSON hinzugefügt wurde, wird der MCP-Server auf der Cursor-MCP-Konfigurationsseite angezeigt. Aktivieren Sie ihn, um den Server zu aktivieren:
Erstellen des Frontends (für Entwickler)
Wenn Sie das Frontend neu erstellen müssen, haben Sie zwei Möglichkeiten:
Option 1: Verwenden des bereitgestellten Skripts (empfohlen)
Dieses Skript führt automatisch Folgendes aus:
- Installieren Sie Frontend-Abhängigkeiten
- Erstellen Sie das Frontend
- Kopieren Sie die Build-Ausgabe in das statische Verzeichnis des Backends
Option 2: Manueller Build-Prozess
Nachdem Sie das Frontend erstellt haben, können Sie die Anwendung mit dem Skript run.py starten.
Einfaches Produktions-Setup
Für eine Produktionsumgebung, in der die statischen Dateien bereits erstellt wurden:
- Platzieren Sie Ihr vorgefertigtes Frontend im Verzeichnis
backend/static
- Starten Sie den Server:Copy
Entwicklungs-Setup (Separate Dienste)
Wenn Sie die Dienste für die Entwicklung separat ausführen möchten:
Backend
- Navigieren Sie zum Backend-Verzeichnis:Copy
- Installieren Sie die Abhängigkeiten mit uv:Copy
- Führen Sie den Backend-Server aus:Copy
Frontend
- Navigieren Sie zum Frontend-Verzeichnis:Copy
- Installieren Sie die Abhängigkeiten:Copy
- Führen Sie den Entwicklungsserver aus:Copy
Verwendung
Hochladen von Dokumenten
- Greifen Sie auf die Weboberfläche unter http://localhost:8000 zu
- Klicken Sie auf „Neues PDF hochladen“ und wählen Sie eine PDF-Datei aus
- Das System verarbeitet die Datei und zeigt den Fortschritt in Echtzeit an
- Nach der Bearbeitung steht das Dokument zur Suche zur Verfügung
Dokumente suchen
- Verwenden Sie die Suchfunktion in der Weboberfläche
- Oder integrieren Sie Cursor mithilfe des MCP-Protokolls
MCP-Integration mit Cursor
- Cursor öffnen
- Gehen Sie zu Einstellungen → KI & MCP
- Fügen Sie einen benutzerdefinierten MCP-Server mit der URL hinzu:
http://localhost:8000/mcp/v1
- Speichern Sie die Einstellungen
- Jetzt können Sie Ihre PDF-Wissensdatenbank direkt vom Cursor aus abfragen
Fehlerbehebung
Verbindungsprobleme
- Stellen Sie sicher, dass Port 8000 nicht von anderen Anwendungen verwendet wird
- Überprüfen Sie, ob die WebSocket-Verbindung ordnungsgemäß funktioniert
- Stellen Sie sicher, dass Ihr Browser WebSockets unterstützt
Verarbeitungsprobleme
- Überprüfen Sie, ob Ihr PDF extrahierbaren Text enthält (bei manchen gescannten PDFs ist dies möglicherweise nicht der Fall).
- Stellen Sie sicher, dass das System über ausreichend Ressourcen (Speicher und CPU) verfügt.
- Überprüfen Sie die Backend-Protokolle auf detaillierte Fehlermeldungen
Projektstruktur
Beitragen
Beiträge sind willkommen! Senden Sie gerne einen Pull Request.
Lizenz
Dieses Projekt ist unter der MIT-Lizenz lizenziert – Einzelheiten finden Sie in der Datei LICENSE.
This server cannot be installed
Ein Dokumenten-Wissensdatenbanksystem, das es Benutzern ermöglicht, PDFs hochzuladen und sie über eine Weboberfläche oder über das Model Context Protocol semantisch abzufragen, was die Integration mit KI-Tools wie Cursor ermöglicht.
Related MCP Servers
- AsecurityFlicenseAqualityA Model Context Protocol server that enables AI models to interact with SourceSync.ai's knowledge management platform for managing documents, ingesting content from various sources, and performing semantic searches.Last updated -2514
- AsecurityAlicenseAqualityA Model Context Protocol implementation that enables AI assistants to interact with markdown documentation files, providing capabilities for document management, metadata handling, search, and documentation health analysis.Last updated -1434611TypeScriptMIT License
- AsecurityAlicenseAqualityA powerful Model Context Protocol framework that extends Cursor IDE with tools for web content retrieval, PDF processing, and Word document parsing.Last updated -88PythonMIT License
- AsecurityAlicenseAqualityA Model Context Protocol server that enables AI assistants to create, read, edit, and format Microsoft Word documents through standardized tools and resources.Last updated -1688PythonMIT License