Servidor PDF MCP
Un servidor de lectura de archivos PDF basado en FastMCP .
Admite extracción de texto PDF, reconocimiento OCR y extracción de imágenes a través del protocolo MCP, con un depurador web integrado para realizar pruebas fácilmente.
🚀 Características
- leer_texto_pdf
Extrae texto normal de un PDF (página por página). - leído por ocr
Utiliza OCR para reconocer texto de archivos PDF escaneados o basados en imágenes. - leer imágenes en pdf
Extrae todas las imágenes de una página PDF específica (salida codificada en Base64).
📂 Estructura del proyecto
⚙️ Instalación
Versión de Python recomendada: 3.9+
Nota: Para utilizar las funciones de OCR, es posible que necesite una compilación de MuPDF con soporte de OCR o bibliotecas de OCR externas.
🔦 Iniciar el servidor
Ejecute el siguiente comando:
Deberías ver registros como:
Interfaz de depuración web
Abra su navegador y visite:
- Seleccione una herramienta del panel izquierdo
- Complete los parámetros en el panel derecho
- Haga clic en "Ejecutar" para probar la herramienta
No requiere codificación: depure y pruebe fácilmente a través de la interfaz de usuario web.
🛠️ Lista de herramientas API
Herramienta | Descripción | Parámetros de entrada | Devoluciones |
---|---|---|---|
read_pdf_text | Extrae texto normal de páginas PDF | file_path , start_page , end_page | Lista de textos de páginas |
read_by_ocr | Reconoce texto mediante OCR | file_path , start_page , end_page , language , dpi | Texto extraído mediante OCR |
read_pdf_images | Extrae imágenes de una página PDF | file_path , page_number | Lista de imágenes (codificadas en Base64) |
📝 Ejemplo de uso
Extraer texto de las páginas 1 a 5:
Realizar reconocimiento OCR en la página 1:
Extraer todas las imágenes de la página 3:
📢 Notas
- Los archivos deben colocarse dentro del directorio
pdf_resources/
o se debe proporcionar una ruta absoluta. - La funcionalidad de OCR requiere soporte de OCR adecuado en el entorno.
- Al procesar archivos grandes, ajuste la configuración de memoria y tiempo de espera según sea necesario.
📜 Licencia
Este proyecto está licenciado bajo la licencia MIT.
Para uso comercial, por favor dé crédito a la fuente original.
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
Un servidor de procesamiento de PDF que extrae texto mediante análisis normal u OCR y recupera imágenes de archivos PDF a través del protocolo MCP con un depurador web integrado.
Related MCP Servers
- AsecurityFlicenseAqualityAn MCP server for converting Markdown documents to PDF files.Last updated -11JavaScript
- -securityFlicense-qualityProvides tools for reading and extracting text from PDF files, supporting both local files and URLs.Last updated -3Python
- -securityFlicense-qualityA server providing PDF form manipulation tools via MCP's API, allowing users to find PDFs across directories, extract form field information, and visualize form fields in documents.Last updated -Python
- AsecurityFlicenseAqualityA Model Context Protocol server that converts PDF documents into PNG images through a simple MCP tool call.Last updated -12Python