MCP-PDF2MD
Servicio MCP-PDF2MD
Un servicio de conversión de PDF a Markdown de alto rendimiento basado en MCP, impulsado por la API de MinerU, que admite el procesamiento por lotes de archivos locales y enlaces URL con salida estructurada.
Características principales
- Conversión de formato: convierte archivos PDF al formato Markdown estructurado.
- Compatibilidad con múltiples fuentes: procesa tanto archivos PDF locales como enlaces URL.
- Procesamiento inteligente: selecciona automáticamente el mejor método de procesamiento.
- Procesamiento por lotes: admite la conversión por lotes de múltiples archivos para un manejo eficiente de grandes volúmenes de archivos PDF.
- Integración MCP: Integración perfecta con clientes LLM como Claude Desktop.
- Preservación de la estructura: mantener la estructura original del documento, incluidos encabezados, párrafos, listas, etc.
- Diseño inteligente: genera texto en un orden legible para humanos, adecuado para diseños de una sola columna, de varias columnas y complejos.
- Conversión de fórmulas: reconoce y convierte automáticamente las fórmulas del documento al formato LaTeX.
- Extracción de tablas: reconoce y convierte automáticamente las tablas del documento a formato estructurado.
- Optimización de limpieza: elimine encabezados, pies de página, notas al pie, números de página, etc., para garantizar la coherencia semántica.
- Extracción de alta calidad: extracción de alta calidad de texto, imágenes e información de diseño de documentos PDF.
Requisitos del sistema
- Software: Python 3.10+
Inicio rápido
- Clonar el repositorio e ingresar al directorio:
- Cree un entorno virtual e instale dependencias:Linux/macOS :Ventanas :
- Configurar variables de entorno:Cree un archivo
.env
en el directorio raíz del proyecto y configure las siguientes variables de entorno: - Iniciar el servicio:
Argumentos de la línea de comandos
El servidor admite los siguientes argumentos de línea de comandos:
Configuración del escritorio de Claude
Agregue la siguiente configuración en Claude Desktop:
Ventanas :
Linux/macOS :
Nota sobre la configuración de la clave API: puede configurar la clave API de dos maneras:
- En el archivo
.env
dentro del directorio del proyecto (recomendado para desarrollo) - En la configuración de Claude Desktop como se muestra arriba (recomendado para uso regular)
Si configura la clave API en ambos lugares, tendrá prioridad la de la configuración de Claude Desktop.
Herramientas MCP
El servidor proporciona las siguientes herramientas MCP:
- convert_pdf_url : Convertir URL de PDF a Markdown
- convert_pdf_file : Convierte un archivo PDF local a Markdown
Obtener la clave API de MinerU
Este proyecto utiliza la API de MinerU para la extracción de contenido PDF. Para obtener una clave API:
- Visita el sitio web oficial de MinerU y regístrate para obtener una cuenta
- Después de iniciar sesión, solicite la calificación de prueba API en este enlace
- Una vez aprobada su solicitud, podrá acceder a la página de Administración de API
- Genere su clave API siguiendo las instrucciones proporcionadas
- Copiar la clave API generada
- Utilice esta cadena como valor para
MINERU_API_KEY
Tenga en cuenta que el acceso a la API de MinerU se encuentra actualmente en fase de prueba y requiere la aprobación del equipo de MinerU. El proceso de aprobación puede tardar un tiempo, así que planifique con antelación.
Manifestación
PDF de entrada
Markdown de salida
Licencia
Licencia MIT: consulte el archivo LICENCIA para obtener más detalles.
Créditos
Este proyecto se basa en la API de MinerU .
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
Herramienta de conversión de PDF a Markdown
Related MCP Servers
- AsecurityFlicenseAqualityAn MCP server for converting Markdown documents to PDF files.Last updated -11JavaScript
- AsecurityAlicenseAqualityConverts various file types and web content to Markdown format. It provides a set of tools to transform PDFs, images, audio files, web pages, and more into easily readable and shareable Markdown text.Last updated -1021,611TypeScriptMIT License
- AsecurityAlicenseAqualityConverts various file formats to Markdown using the MarkItDown utility and can be integrated with MCP clients for seamless document processing and conversion.Last updated -26PythonMIT License
- -securityFlicense-qualityConverts Markdown to styled PDFs using VS Code's markdown styling and Python's ReportLab, providing a simple note storage system with custom URI scheme.Last updated -6Python