Skip to main content
Glama

Servidor PDF MCP

Un servidor de lectura de archivos PDF basado en FastMCP .

Admite extracción de texto PDF, reconocimiento OCR y extracción de imágenes a través del protocolo MCP, con un depurador web integrado para realizar pruebas fácilmente.


🚀 Características

  • leer_texto_pdf
    Extrae texto normal de un PDF (página por página).

  • leído por ocr
    Utiliza OCR para reconocer texto de archivos PDF escaneados o basados en imágenes.

  • leer imágenes en pdf
    Extrae todas las imágenes de una página PDF específica (salida codificada en Base64).


Related MCP server: Textin MCP Server

📂 Estructura del proyecto

mcp-pdf-server/ ├── pdf_resources/ # Directory for uploaded and processed PDF files ├── txt_server.py # Main server entry point └── README.md # Project documentation

⚙️ Instalación

Versión de Python recomendada: 3.9+

pip install pymupdf mcp

Nota: Para utilizar las funciones de OCR, es posible que necesite una compilación de MuPDF con soporte de OCR o bibliotecas de OCR externas.


🔦 Iniciar el servidor

Ejecute el siguiente comando:

python txt_server.py

Deberías ver registros como:

Serving on http://127.0.0.1:6231

Interfaz de depuración web

Abra su navegador y visite:

http://127.0.0.1:6231
  • Seleccione una herramienta del panel izquierdo

  • Complete los parámetros en el panel derecho

  • Haga clic en "Ejecutar" para probar la herramienta

No requiere codificación: depure y pruebe fácilmente a través de la interfaz de usuario web.


🛠️ Lista de herramientas API

Herramienta

Descripción

Parámetros de entrada

Devoluciones

read_pdf_text

Extrae texto normal de páginas PDF

file_path , start_page , end_page

Lista de textos de páginas

read_by_ocr

Reconoce texto mediante OCR

file_path , start_page , end_page , language , dpi

Texto extraído mediante OCR

read_pdf_images

Extrae imágenes de una página PDF

file_path , page_number

Lista de imágenes (codificadas en Base64)


📝 Ejemplo de uso

Extraer texto de las páginas 1 a 5:

mcp run read_pdf_text --args '{"file_path": "pdf_resources/example.pdf", "start_page": 1, "end_page": 5}'

Realizar reconocimiento OCR en la página 1:

mcp run read_by_ocr --args '{"file_path": "pdf_resources/example.pdf", "start_page": 1, "end_page": 1, "language": "eng"}'

Extraer todas las imágenes de la página 3:

mcp run read_pdf_images --args '{"file_path": "pdf_resources/example.pdf", "page_number": 3}'

📢 Notas

  • Los archivos deben colocarse dentro del directorio pdf_resources/ o se debe proporcionar una ruta absoluta.

  • La funcionalidad de OCR requiere soporte de OCR adecuado en el entorno.

  • Al procesar archivos grandes, ajuste la configuración de memoria y tiempo de espera según sea necesario.


📜 Licencia

Este proyecto está licenciado bajo la licencia MIT.
Para uso comercial, por favor dé crédito a la fuente original.


-
security - not tested
F
license - not found
-
quality - not tested

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/DeepSeekMine/mcp-pdf-reader'

If you have feedback or need assistance with the MCP directory API, please join our Discord server