PDF Reader MCP Server (@sylphlab/pdf-reader-mcp)
Geben Sie Ihren KI-Agenten (wie Cline) die Möglichkeit, mithilfe eines einzigen, flexiblen Tools Informationen (Text, Metadaten, Seitenzahl) aus PDF-Dateien im Kontext Ihres Projekts sicher zu lesen und zu extrahieren.
Installation
Verwenden von npm (empfohlen)
Installieren Sie es als Abhängigkeit in Ihrer MCP-Hostumgebung oder Ihrem Projekt:
Konfigurieren Sie Ihren MCP-Host (z. B. mcp_settings.json
) für die Verwendung npx
:
(Stellen Sie sicher, dass der Host das richtige cwd
für das Zielprojekt einstellt.)
Verwenden von Docker
Ziehen Sie das Bild:
Konfigurieren Sie Ihren MCP-Host zum Ausführen des Containers und mounten Sie Ihr Projektverzeichnis in /app
:
Lokaler Build (für die Entwicklung)
- Klonen:
git clone https://github.com/sylphlab/pdf-reader-mcp.git
- Installieren:
cd pdf-reader-mcp && pnpm install
- Erstellen:
pnpm run build
- MCP-Host konfigurieren:(Stellen Sie sicher, dass der Host das richtige
cwd
für das Zielprojekt einstellt.)
Schnellstart
Vorausgesetzt, der Server läuft und ist in Ihrem MCP-Host konfiguriert:
MCP-Anforderung (Metadaten und Text der zweiten Seite aus einer lokalen PDF-Datei abrufen):
Erwarteter Antwortausschnitt:
Warum dieses Projekt wählen?
- 🛡️ Sicher: Beschränkt den Dateizugriff streng auf das Stammverzeichnis des Projekts.
- 🌐 Flexibel: Verarbeitet sowohl lokale relative Pfade als auch öffentliche URLs.
- 🧩 Konsolidiert: Ein einziges
read_pdf
Tool erfüllt mehrere Extraktionsanforderungen (Volltext, bestimmte Seiten, Metadaten, Seitenanzahl). - ⚙️ Strukturierte Ausgabe: Gibt Daten in einem vorhersehbaren JSON-Format zurück, das für Agenten leicht zu analysieren ist.
- 🚀 Einfache Integration: Entwickelt für die nahtlose Verwendung in MCP-Umgebungen über
npx
oder Docker. - ✅ Robust: Verwendet
pdfjs-dist
für zuverlässiges Parsen und Zod für die Eingabevalidierung.
Leistungsvorteile
Erste Benchmarks mit Vitest an einem Beispiel-PDF zeigen die effiziente Abwicklung verschiedener Operationen:
Szenario | Operationen pro Sekunde (Hz) | Relative Geschwindigkeit |
---|---|---|
Nicht vorhandene Dateien verarbeiten | ~12.933 | Am schnellsten |
Vollständigen Text abrufen | ~5.575 | |
Bestimmte Seite abrufen (Seite 1) | ~5.329 | |
Bestimmte Seiten abrufen (Seite 1 und 2) | ~5.242 | |
Metadaten und Seitenanzahl abrufen | ~4.912 | Am langsamsten |
(Höhere Hz bedeuten eine bessere Leistung. Die Ergebnisse können je nach PDF-Komplexität und Umgebung variieren.)
Weitere Einzelheiten und Zukunftspläne finden Sie in der Leistungsdokumentation .
Merkmale
- Lesen Sie den vollständigen Textinhalt von PDF-Dateien.
- Lesen Sie Textinhalte von bestimmten Seiten oder Seitenbereichen.
- Lesen Sie PDF-Metadaten (Autor, Titel, Erstellungsdatum usw.).
- Ermitteln Sie die Gesamtseitenzahl einer PDF-Datei.
- Verarbeiten Sie mehrere PDF-Quellen (lokale Pfade oder URLs) in einer einzigen Anfrage.
- Funktioniert sicher innerhalb der definierten Projektwurzel.
- Bietet strukturierte JSON-Ausgabe über MCP.
- Verfügbar über npm und Docker Hub.
Design-Philosophie
Der Server priorisiert Sicherheit durch Kontextbeschränkung, Effizienz durch strukturierte Datenübertragung und Einfachheit für die einfache Integration in KI-Agent-Workflows. Er zielt auf minimale Abhängigkeiten ab und basiert auf der robusten pdfjs-dist
-Bibliothek.
Sehen Sie sich die vollständige Dokumentation zur Designphilosophie an.
Vergleich mit anderen Lösungen
Im Vergleich zum direkten Dateizugriff (der oft nicht möglich ist) oder generischen Dateisystem-Tools bietet dieser Server PDF-spezifische Parsing-Funktionen. Im Gegensatz zu externen CLI-Tools (z. B. pdftotext
) bietet er eine sichere, integrierte MCP-Schnittstelle mit strukturierter Ausgabe, was die Zuverlässigkeit und Benutzerfreundlichkeit für KI-Agenten erhöht.
Siehe die vollständige Vergleichsdokumentation .
Zukunftspläne (Roadmap)
- Dokumentation:
- Finalisieren Sie alle Abschnitte der Dokumentation (Leitfaden, API, Design, Vergleich).
- Beheben Sie das TypeDoc-Problem und generieren Sie die API-Dokumentation.
- Fügen Sie weitere Beispiele und erweiterte Verwendungsmuster hinzu.
- Implementieren Sie PWA-Unterstützung und mobile Optimierung für die Dokumentensite.
- Fügen Sie der Dokumentensite Schaltflächen zum Teilen und Wachstumsmetriken hinzu.
- Benchmarking:
- Führen Sie umfassende Benchmarks mit unterschiedlichen PDF-Dateien (Größe, Komplexität) durch.
- Messen Sie die Speichernutzung.
- Vergleichen Sie die Leistung von URLs mit der Leistung lokaler Dateien.
- Kernfunktionalität:
- Erkunden Sie mögliche Optimierungen für sehr große PDF-Dateien.
- Untersuchen Sie Optionen zum Extrahieren von Bildern oder Anmerkungen (längerfristig).
- Testen:
- Erhöhen Sie die Testabdeckung, soweit möglich, auf 100 %.
- Fügen Sie Laufzeittests hinzu, sobald dies möglich ist.
Dokumentation
Ausführliche Informationen zur Verwendung, API-Referenzen und Anleitungen finden Sie auf der Website mit der vollständigen Dokumentation (Link wird bei der Bereitstellung aktualisiert).
Community und Support
- Haben Sie einen Fehler gefunden oder möchten Sie eine Funktion aktivieren? Bitte öffnen Sie ein Problem auf GitHub Issues .
- Möchten Sie mitwirken? Wir freuen uns über Ihre Beiträge! Weitere Informationen finden Sie unter CONTRIBUTING.md .
- Markieren und beobachten: Wenn Sie dieses Projekt nützlich finden, können Sie das Repository auf GitHub mit einem Stern ⭐ markieren und beobachten 👀, um Ihre Unterstützung zu zeigen und auf dem Laufenden zu bleiben!
Lizenz
Dieses Projekt ist unter der MIT-Lizenz lizenziert.
You must be authenticated.
hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
Ermöglicht KI-Agenten, mithilfe eines flexiblen MCP-Tools Informationen (Text, Metadaten, Seitenzahl) aus PDF-Dateien im Projektkontext sicher zu lesen und zu extrahieren.
Related MCP Servers
- AsecurityAlicenseAqualityAiDD MCP Server provides a secure interface for AI agents to perform file system operations and code analysis, enhancing AI-assisted development workflows across multiple programming languages.Last updated -2960PythonApache 2.0
- -securityFlicense-qualityA server providing PDF form manipulation tools via MCP's API, allowing users to find PDFs across directories, extract form field information, and visualize form fields in documents.Last updated -Python
- AsecurityFlicenseAqualityAn MCP server that provides a tool to extract text content from local PDF files, supporting both standard PDF reading and OCR capabilities with optional page selection.Last updated -15Python
- -securityAlicense-qualityAn MCP server that provides multiple file conversion tools for AI agents, supporting various document and image format conversions including DOCX to PDF, PDF to DOCX, image conversions, Excel to CSV, HTML to PDF, and Markdown to PDF.Last updated -3PythonMIT License