Servidor PDF MCP
Un servidor de lectura de archivos PDF basado en FastMCP .
Admite extracción de texto PDF, reconocimiento OCR y extracción de imágenes a través del protocolo MCP, con un depurador web integrado para realizar pruebas fácilmente.
🚀 Características
- leer_texto_pdf
Extrae texto normal de un PDF (página por página). - leído por ocr
Utiliza OCR para reconocer texto de archivos PDF escaneados o basados en imágenes. - leer imágenes en pdf
Extrae todas las imágenes de una página PDF específica (salida codificada en Base64).
📂 Estructura del proyecto
⚙️ Instalación
Versión de Python recomendada: 3.9+
Nota: Para utilizar las funciones de OCR, es posible que necesite una compilación de MuPDF con soporte de OCR o bibliotecas de OCR externas.
🔦 Iniciar el servidor
Ejecute el siguiente comando:
Deberías ver registros como:
Interfaz de depuración web
Abra su navegador y visite:
- Seleccione una herramienta del panel izquierdo
- Complete los parámetros en el panel derecho
- Haga clic en "Ejecutar" para probar la herramienta
No requiere codificación: depure y pruebe fácilmente a través de la interfaz de usuario web.
🛠️ Lista de herramientas API
Herramienta | Descripción | Parámetros de entrada | Devoluciones |
---|---|---|---|
read_pdf_text | Extrae texto normal de páginas PDF | file_path , start_page , end_page | Lista de textos de páginas |
read_by_ocr | Reconoce texto mediante OCR | file_path , start_page , end_page , language , dpi | Texto extraído mediante OCR |
read_pdf_images | Extrae imágenes de una página PDF | file_path , page_number | Lista de imágenes (codificadas en Base64) |
📝 Ejemplo de uso
Extraer texto de las páginas 1 a 5:
Realizar reconocimiento OCR en la página 1:
Extraer todas las imágenes de la página 3:
📢 Notas
- Los archivos deben colocarse dentro del directorio
pdf_resources/
o se debe proporcionar una ruta absoluta. - La funcionalidad de OCR requiere soporte de OCR adecuado en el entorno.
- Al procesar archivos grandes, ajuste la configuración de memoria y tiempo de espera según sea necesario.
📜 Licencia
Este proyecto está licenciado bajo la licencia MIT.
Para uso comercial, por favor dé crédito a la fuente original.
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
Un servidor de procesamiento de PDF que extrae texto mediante análisis normal u OCR y recupera imágenes de archivos PDF a través del protocolo MCP con un depurador web integrado.
Related MCP Servers
- AsecurityFlicenseAqualityAn MCP server that provides a tool to extract text content from local PDF files, supporting both standard PDF reading and OCR capabilities with optional page selection.Last updated -118
Textin MCP Serverofficial
AsecurityAlicenseAqualityA server that enables OCR capabilities to recognize text from images, PDFs, and Word documents, convert them to Markdown, and extract key information.Last updated -35523MIT License- -securityAlicense-qualityA Model Context Protocol (MCP) based server that efficiently manages PDF files, allowing AI coding tools like Cursor to read, summarize, and extract information from PDF datasheets to assist embedded development work.Last updated -7Apache 2.0
- -securityFlicense-qualityAn MCP server that provides comprehensive PDF processing capabilities including text extraction, image extraction, table detection, annotation extraction, metadata retrieval, page rendering, and document structure analysis.Last updated -