Servidor PDF MCP
Un servidor de lectura de archivos PDF basado en FastMCP .
Admite extracción de texto PDF, reconocimiento OCR y extracción de imágenes a través del protocolo MCP, con un depurador web integrado para realizar pruebas fácilmente.
🚀 Características
leer_texto_pdf
Extrae texto normal de un PDF (página por página).leído por ocr
Utiliza OCR para reconocer texto de archivos PDF escaneados o basados en imágenes.leer imágenes en pdf
Extrae todas las imágenes de una página PDF específica (salida codificada en Base64).
Related MCP server: Textin MCP Server
📂 Estructura del proyecto
mcp-pdf-server/
├── pdf_resources/ # Directory for uploaded and processed PDF files
├── txt_server.py # Main server entry point
└── README.md # Project documentation⚙️ Instalación
Versión de Python recomendada: 3.9+
pip install pymupdf mcpNota: Para utilizar las funciones de OCR, es posible que necesite una compilación de MuPDF con soporte de OCR o bibliotecas de OCR externas.
🔦 Iniciar el servidor
Ejecute el siguiente comando:
python txt_server.pyDeberías ver registros como:
Serving on http://127.0.0.1:6231Interfaz de depuración web
Abra su navegador y visite:
http://127.0.0.1:6231Seleccione una herramienta del panel izquierdo
Complete los parámetros en el panel derecho
Haga clic en "Ejecutar" para probar la herramienta
No requiere codificación: depure y pruebe fácilmente a través de la interfaz de usuario web.
🛠️ Lista de herramientas API
Herramienta | Descripción | Parámetros de entrada | Devoluciones |
| Extrae texto normal de páginas PDF |
| Lista de textos de páginas |
| Reconoce texto mediante OCR |
| Texto extraído mediante OCR |
| Extrae imágenes de una página PDF |
| Lista de imágenes (codificadas en Base64) |
📝 Ejemplo de uso
Extraer texto de las páginas 1 a 5:
mcp run read_pdf_text --args '{"file_path": "pdf_resources/example.pdf", "start_page": 1, "end_page": 5}'Realizar reconocimiento OCR en la página 1:
mcp run read_by_ocr --args '{"file_path": "pdf_resources/example.pdf", "start_page": 1, "end_page": 1, "language": "eng"}'Extraer todas las imágenes de la página 3:
mcp run read_pdf_images --args '{"file_path": "pdf_resources/example.pdf", "page_number": 3}'📢 Notas
Los archivos deben colocarse dentro del directorio
pdf_resources/o se debe proporcionar una ruta absoluta.La funcionalidad de OCR requiere soporte de OCR adecuado en el entorno.
Al procesar archivos grandes, ajuste la configuración de memoria y tiempo de espera según sea necesario.
📜 Licencia
Este proyecto está licenciado bajo la licencia MIT.
Para uso comercial, por favor dé crédito a la fuente original.