mcp-pdf2md

by FutureUnreal
Verified

local-only server

The server can only run on the client’s local machine because it depends on local resources.

Integrations

  • Repository hosting for the MCP-PDF2MD service, allowing users to clone and set up the service from GitHub

  • Automatically recognizes and converts mathematical formulas found in PDF documents to LaTeX format

  • Converts PDF content to structured Markdown format, preserving document structure including headings, paragraphs, lists, and tables

MCP-PDF2MD

Inglés | Chino

Servicio MCP-PDF2MD

Un servicio de conversión de PDF a Markdown de alto rendimiento basado en MCP, impulsado por la API de MinerU, que admite el procesamiento por lotes de archivos locales y enlaces URL con salida estructurada.

Características principales

  • Conversión de formato: convierte archivos PDF al formato Markdown estructurado.
  • Compatibilidad con múltiples fuentes: procesa tanto archivos PDF locales como enlaces URL.
  • Procesamiento inteligente: selecciona automáticamente el mejor método de procesamiento.
  • Procesamiento por lotes: admite la conversión por lotes de múltiples archivos para un manejo eficiente de grandes volúmenes de archivos PDF.
  • Integración MCP: Integración perfecta con clientes LLM como Claude Desktop.
  • Preservación de la estructura: mantener la estructura original del documento, incluidos encabezados, párrafos, listas, etc.
  • Diseño inteligente: genera texto en un orden legible para humanos, adecuado para diseños de una sola columna, de varias columnas y complejos.
  • Conversión de fórmulas: reconoce y convierte automáticamente las fórmulas del documento al formato LaTeX.
  • Extracción de tablas: reconoce y convierte automáticamente las tablas del documento a formato estructurado.
  • Optimización de limpieza: elimine encabezados, pies de página, notas al pie, números de página, etc., para garantizar la coherencia semántica.
  • Extracción de alta calidad: extracción de alta calidad de texto, imágenes e información de diseño de documentos PDF.

Requisitos del sistema

  • Software: Python 3.10+

Inicio rápido

  1. Clonar el repositorio e ingresar al directorio:
    git clone https://github.com/FutureUnreal/mcp-pdf2md.git cd mcp-pdf2md
  2. Cree un entorno virtual e instale dependencias:Linux/macOS :
    uv venv source .venv/bin/activate uv pip install -e .
    Ventanas :
    uv venv .venv\Scripts\activate uv pip install -e .
  3. Configurar variables de entorno:Cree un archivo .env en el directorio raíz del proyecto y configure las siguientes variables de entorno:
    MINERU_API_BASE=https://mineru.net/api/v4/extract/task MINERU_BATCH_API=https://mineru.net/api/v4/extract/task/batch MINERU_BATCH_RESULTS_API=https://mineru.net/api/v4/extract-results/batch MINERU_API_KEY=your_api_key_here
  4. Iniciar el servicio:
    uv run pdf2md

Argumentos de la línea de comandos

El servidor admite los siguientes argumentos de línea de comandos:

Configuración del escritorio de Claude

Agregue la siguiente configuración en Claude Desktop:

Ventanas :

{ "mcpServers": { "pdf2md": { "command": "uv", "args": [ "--directory", "C:\\path\\to\\mcp-pdf2md", "run", "pdf2md", "--output-dir", "C:\\path\\to\\output" ], "env": { "MINERU_API_KEY": "your_api_key_here" } } } }

Linux/macOS :

{ "mcpServers": { "pdf2md": { "command": "uv", "args": [ "--directory", "/path/to/mcp-pdf2md", "run", "pdf2md", "--output-dir", "/path/to/output" ], "env": { "MINERU_API_KEY": "your_api_key_here" } } } }

Nota sobre la configuración de la clave API: puede configurar la clave API de dos maneras:

  1. En el archivo .env dentro del directorio del proyecto (recomendado para desarrollo)
  2. En la configuración de Claude Desktop como se muestra arriba (recomendado para uso regular)

Si configura la clave API en ambos lugares, tendrá prioridad la de la configuración de Claude Desktop.

Herramientas MCP

El servidor proporciona las siguientes herramientas MCP:

  • convert_pdf_url : Convertir URL de PDF a Markdown
  • convert_pdf_file : Convierte un archivo PDF local a Markdown

Obtener la clave API de MinerU

Este proyecto utiliza la API de MinerU para la extracción de contenido PDF. Para obtener una clave API:

  1. Visita el sitio web oficial de MinerU y regístrate para obtener una cuenta
  2. Después de iniciar sesión, solicite la calificación de prueba API en este enlace
  3. Una vez aprobada su solicitud, podrá acceder a la página de Administración de API
  4. Genere su clave API siguiendo las instrucciones proporcionadas
  5. Copiar la clave API generada
  6. Utilice esta cadena como valor para MINERU_API_KEY

Tenga en cuenta que el acceso a la API de MinerU se encuentra actualmente en fase de prueba y requiere la aprobación del equipo de MinerU. El proceso de aprobación puede tardar un tiempo, así que planifique con antelación.

Manifestación

PDF de entrada

Markdown de salida

Licencia

Licencia MIT: consulte el archivo LICENCIA para obtener más detalles.

Créditos

Este proyecto se basa en la API de MinerU .

-
security - not tested
A
license - permissive license
-
quality - not tested

Herramienta de conversión de PDF a Markdown

  1. MCP-PDF2MD Service
    1. Key Features
    2. System Requirements
    3. Quick Start
    4. Command Line Arguments
    5. Claude Desktop Configuration
    6. MCP Tools
    7. Getting MinerU API Key
    8. Demo
    9. License
    10. Credits
ID: o7mmw049st