Servidor PDF MCP
Un servidor de lectura de archivos PDF basado en FastMCP .
Admite extracción de texto PDF, reconocimiento OCR y extracción de imágenes a través del protocolo MCP, con un depurador web integrado para realizar pruebas fácilmente.
🚀 Características
leer_texto_pdf
Extrae texto normal de un PDF (página por página).leído por ocr
Utiliza OCR para reconocer texto de archivos PDF escaneados o basados en imágenes.leer imágenes en pdf
Extrae todas las imágenes de una página PDF específica (salida codificada en Base64).
Related MCP server: Textin MCP Server
📂 Estructura del proyecto
⚙️ Instalación
Versión de Python recomendada: 3.9+
Nota: Para utilizar las funciones de OCR, es posible que necesite una compilación de MuPDF con soporte de OCR o bibliotecas de OCR externas.
🔦 Iniciar el servidor
Ejecute el siguiente comando:
Deberías ver registros como:
Interfaz de depuración web
Abra su navegador y visite:
Seleccione una herramienta del panel izquierdo
Complete los parámetros en el panel derecho
Haga clic en "Ejecutar" para probar la herramienta
No requiere codificación: depure y pruebe fácilmente a través de la interfaz de usuario web.
🛠️ Lista de herramientas API
Herramienta | Descripción | Parámetros de entrada | Devoluciones |
| Extrae texto normal de páginas PDF |
| Lista de textos de páginas |
| Reconoce texto mediante OCR |
| Texto extraído mediante OCR |
| Extrae imágenes de una página PDF |
| Lista de imágenes (codificadas en Base64) |
📝 Ejemplo de uso
Extraer texto de las páginas 1 a 5:
Realizar reconocimiento OCR en la página 1:
Extraer todas las imágenes de la página 3:
📢 Notas
Los archivos deben colocarse dentro del directorio
pdf_resources/o se debe proporcionar una ruta absoluta.La funcionalidad de OCR requiere soporte de OCR adecuado en el entorno.
Al procesar archivos grandes, ajuste la configuración de memoria y tiempo de espera según sea necesario.
📜 Licencia
Este proyecto está licenciado bajo la licencia MIT.
Para uso comercial, por favor dé crédito a la fuente original.