Integrations
Enables reading and processing PDF files with tools for text extraction, OCR recognition, and image extraction from PDF documents.
Based on FastMCP framework which is hosted on GitHub, allowing users to leverage the MCP protocol implementation for PDF processing.
Requires Python 3.9+ environment to run the server, utilizing Python libraries like PyMuPDF for PDF processing functionality.
Servidor PDF MCP
Un servidor de lectura de archivos PDF basado en FastMCP .
Admite extracción de texto PDF, reconocimiento OCR y extracción de imágenes a través del protocolo MCP, con un depurador web integrado para realizar pruebas fácilmente.
🚀 Características
- leer_texto_pdf
Extrae texto normal de un PDF (página por página). - leído por ocr
Utiliza OCR para reconocer texto de archivos PDF escaneados o basados en imágenes. - leer imágenes en pdf
Extrae todas las imágenes de una página PDF específica (salida codificada en Base64).
📂 Estructura del proyecto
⚙️ Instalación
Versión de Python recomendada: 3.9+
Nota: Para utilizar las funciones de OCR, es posible que necesite una compilación de MuPDF con soporte de OCR o bibliotecas de OCR externas.
🔦 Iniciar el servidor
Ejecute el siguiente comando:
Deberías ver registros como:
Interfaz de depuración web
Abra su navegador y visite:
- Seleccione una herramienta del panel izquierdo
- Complete los parámetros en el panel derecho
- Haga clic en "Ejecutar" para probar la herramienta
No requiere codificación: depure y pruebe fácilmente a través de la interfaz de usuario web.
🛠️ Lista de herramientas API
Herramienta | Descripción | Parámetros de entrada | Devoluciones |
---|---|---|---|
read_pdf_text | Extrae texto normal de páginas PDF | file_path , start_page , end_page | Lista de textos de páginas |
read_by_ocr | Reconoce texto mediante OCR | file_path , start_page , end_page , language , dpi | Texto extraído mediante OCR |
read_pdf_images | Extrae imágenes de una página PDF | file_path , page_number | Lista de imágenes (codificadas en Base64) |
📝 Ejemplo de uso
Extraer texto de las páginas 1 a 5:
Realizar reconocimiento OCR en la página 1:
Extraer todas las imágenes de la página 3:
📢 Notas
- Los archivos deben colocarse dentro del directorio
pdf_resources/
o se debe proporcionar una ruta absoluta. - La funcionalidad de OCR requiere soporte de OCR adecuado en el entorno.
- Al procesar archivos grandes, ajuste la configuración de memoria y tiempo de espera según sea necesario.
📜 Licencia
Este proyecto está licenciado bajo la licencia MIT.
Para uso comercial, por favor dé crédito a la fuente original.
This server cannot be installed
Un servidor de procesamiento de PDF que extrae texto mediante análisis normal u OCR y recupera imágenes de archivos PDF a través del protocolo MCP con un depurador web integrado.
Related MCP Servers
- AsecurityFlicenseAqualityAn MCP server for converting Markdown documents to PDF files.Last updated -11JavaScript
- -securityFlicense-qualityProvides tools for reading and extracting text from PDF files, supporting both local files and URLs.Last updated -3Python
- -securityFlicense-qualityA server providing PDF form manipulation tools via MCP's API, allowing users to find PDFs across directories, extract form field information, and visualize form fields in documents.Last updated -Python
- AsecurityFlicenseAqualityA Model Context Protocol server that converts PDF documents into PNG images through a simple MCP tool call.Last updated -12Python