PDF-процессор MCP-сервер
Сервер Model Context Protocol (MCP) для обработки PDF-документов с расширенными функциями, включая извлечение уравнений LaTeX. Этот сервер позволяет Клоду извлекать, обрабатывать и извлекать информацию из PDF-документов, включая математические уравнения LaTeX.
Функции
Извлечение PDF-файлов из URL-адресов
Извлечение текста из PDF-файлов
Распознавание и извлечение уравнений LaTeX
Интеграция с Клодом через MCP
Related MCP server: MCP Web Research Server
Установка
Стандартная установка
pip install -e .Установка для Claude Desktop/Claude Code
Чтобы использовать этот MCP-сервер с Claude Desktop или Claude Code:
Установите инструменты MCP CLI, если они еще не установлены:
pip install "mcp[cli]"Установите сервер с помощью инструмента MCP CLI:
mcp install /path/to/pdf_tool_server.py --with-editable /path/to/mcp_pdf_processorНапример, если вы клонировали этот репозиторий в
~/mcp_pdf_processor:mcp install ~/mcp_pdf_processor/pdf_tool_server.py --with-editable ~/mcp_pdf_processorДля разработки с помощью MCP Inspector:
mcp dev /path/to/pdf_tool_server.py --with-editable /path/to/mcp_pdf_processorВ Claude Desktop теперь вы можете использовать сервер PDF_TOOLS в своих диалогах с помощью следующих команд:
/mcp PDF_TOOLS fetch_pdf url=https://example.com/document.pdf /mcp PDF_TOOLS process_pdf hash_id=<HASH_ID> extract_latex=true /mcp PDF_TOOLS read_processed_pdf filename=<FILENAME>
Использование
Работает автономно
python pdf_tool_server.pyПеременные среды
OUTPUT_DIR: Каталог для хранения обработанных PDF-файлов (по умолчанию:llm_output)PYTHONPATH: Укажите каталог, содержащий пакет mcp_pdf_processor
Использование с Клодом
После регистрации сервера вы можете попросить Клода:
«Загрузить и проанализировать PDF-файл по адресу [URL]»
«Извлечь уравнения LaTeX из PDF-файла по адресу [URL]»
«Кратко изложите содержание PDF-файла по адресу [URL]»
Требования
Для сервера требуются следующие основные зависимости:
Python 3.9 или выше
pymupdf: обработка PDF-файлов и извлечение текстаmcp: поддержка протокола контекста моделиpydantic: Проверка и сериализация данныхaiohttp: Асинхронный HTTP-клиент/серверtorch: Для извлечения уравнений LaTeX (необязательно)pix2tex: Для распознавания уравнений LaTeX (необязательно)
Полный список зависимостей и требований к версиям см. в pyproject.toml
Примеры использования
Вот полный пример рабочего процесса использования PDF-процессора с Claude Desktop:
# 1. Fetch a PDF without reading it
/mcp PDF_TOOLS fetch_pdf url=https://arxiv.org/pdf/2505.05522
# This returns a hash_id, which you'll use in the next step
# 2. Process the PDF with LaTeX extraction
/mcp PDF_TOOLS process_pdf hash_id=<HASH_ID> extract_latex=true
# This returns a filename for the processed output
# 3. Read the processed content
/mcp PDF_TOOLS read_processed_pdf filename=<FILENAME>
# Now Claude can analyze the PDF content, including any LaTeX equationsЛицензия
Массачусетский технологический институт