Integrations
Enables reading and processing PDF files with tools for text extraction, OCR recognition, and image extraction from PDF documents.
Based on FastMCP framework which is hosted on GitHub, allowing users to leverage the MCP protocol implementation for PDF processing.
Requires Python 3.9+ environment to run the server, utilizing Python libraries like PyMuPDF for PDF processing functionality.
📄 MCP PDF 服务器
基于FastMCP的PDF文件阅读服务器。
支持通过MCP协议进行PDF文本提取、OCR识别、图像提取,内置Web调试器,方便测试。
🚀 功能
- 读取 PDF 文本
从 PDF 中提取普通文本(逐页)。 - 通过 OCR 读取
使用 OCR 识别扫描或基于图像的 PDF 中的文本。 - 读取 PDF 图像
从指定的 PDF 页面中提取所有图像(Base64 编码输出)。
📂 项目结构
Copy
⚙️ 安装
推荐 Python 版本:3.9+
Copy
注意:要使用 OCR 功能,您可能需要构建具有 OCR 支持或外部 OCR 库的 MuPDF。
🔦启动服务器
运行以下命令:
Copy
您应该会看到如下日志:
Copy
🌐 Web 调试接口
打开浏览器并访问:
Copy
- 从左侧面板选择一个工具
- 在右侧面板填写参数
- 单击“运行”以测试该工具
无需编码——通过 Web UI 轻松调试和测试。
🛠️ API 工具列表
工具 | 描述 | 输入参数 | 返回 |
---|---|---|---|
read_pdf_text | 从 PDF 页面中提取普通文本 | file_path 、 start_page 、 end_page | 页面文本列表 |
read_by_ocr | 通过 OCR 识别文本 | file_path 、 start_page 、 end_page 、 language 、 dpi | OCR提取的文本 |
read_pdf_images | 从 PDF 页面中提取图像 | file_path 、 page_number | 图片列表(Base64编码) |
📝 使用示例
从第 1 至第 5 页提取文本:
Copy
对第1页进行OCR识别:
Copy
提取第 3 页的所有图像:
Copy
📢 注释
- 文件必须放在
pdf_resources/
目录中,或者必须提供绝对路径。 - OCR 功能需要环境中适当的 OCR 支持。
- 处理大文件时,根据需要调整内存和超时设置。
📜 许可证
该项目已获得 MIT 许可。
如需商业使用,请注明原始出处。
This server cannot be installed
PDF 处理服务器通过常规解析或 OCR 提取文本,并通过内置 Web 调试器的 MCP 协议从 PDF 文件中检索图像。
Related MCP Servers
- AsecurityFlicenseAqualityAn MCP server for converting Markdown documents to PDF files.Last updated -11JavaScript
- -securityFlicense-qualityProvides tools for reading and extracting text from PDF files, supporting both local files and URLs.Last updated -3Python
- -securityFlicense-qualityA server providing PDF form manipulation tools via MCP's API, allowing users to find PDFs across directories, extract form field information, and visualize form fields in documents.Last updated -Python
- AsecurityFlicenseAqualityA Model Context Protocol server that converts PDF documents into PNG images through a simple MCP tool call.Last updated -12Python