PDF-процессор MCP-сервер
Сервер Model Context Protocol (MCP) для обработки PDF-документов с расширенными функциями, включая извлечение уравнений LaTeX. Этот сервер позволяет Клоду извлекать, обрабатывать и извлекать информацию из PDF-документов, включая математические уравнения LaTeX.
Функции
Извлечение PDF-файлов из URL-адресов
Извлечение текста из PDF-файлов
Распознавание и извлечение уравнений LaTeX
Интеграция с Клодом через MCP
Related MCP server: MCP Web Research Server
Установка
Стандартная установка
Установка для Claude Desktop/Claude Code
Чтобы использовать этот MCP-сервер с Claude Desktop или Claude Code:
Установите инструменты MCP CLI, если они еще не установлены:
pip install "mcp[cli]"Установите сервер с помощью инструмента MCP CLI:
mcp install /path/to/pdf_tool_server.py --with-editable /path/to/mcp_pdf_processorНапример, если вы клонировали этот репозиторий в
~/mcp_pdf_processor:mcp install ~/mcp_pdf_processor/pdf_tool_server.py --with-editable ~/mcp_pdf_processorДля разработки с помощью MCP Inspector:
mcp dev /path/to/pdf_tool_server.py --with-editable /path/to/mcp_pdf_processorВ Claude Desktop теперь вы можете использовать сервер PDF_TOOLS в своих диалогах с помощью следующих команд:
/mcp PDF_TOOLS fetch_pdf url=https://example.com/document.pdf /mcp PDF_TOOLS process_pdf hash_id=<HASH_ID> extract_latex=true /mcp PDF_TOOLS read_processed_pdf filename=<FILENAME>
Использование
Работает автономно
Переменные среды
OUTPUT_DIR: Каталог для хранения обработанных PDF-файлов (по умолчанию:llm_output)PYTHONPATH: Укажите каталог, содержащий пакет mcp_pdf_processor
Использование с Клодом
После регистрации сервера вы можете попросить Клода:
«Загрузить и проанализировать PDF-файл по адресу [URL]»
«Извлечь уравнения LaTeX из PDF-файла по адресу [URL]»
«Кратко изложите содержание PDF-файла по адресу [URL]»
Требования
Для сервера требуются следующие основные зависимости:
Python 3.9 или выше
pymupdf: обработка PDF-файлов и извлечение текстаmcp: поддержка протокола контекста моделиpydantic: Проверка и сериализация данныхaiohttp: Асинхронный HTTP-клиент/серверtorch: Для извлечения уравнений LaTeX (необязательно)pix2tex: Для распознавания уравнений LaTeX (необязательно)
Полный список зависимостей и требований к версиям см. в pyproject.toml
Примеры использования
Вот полный пример рабочего процесса использования PDF-процессора с Claude Desktop:
Лицензия
Массачусетский технологический институт