Provides OCR (Optical Character Recognition) capabilities using PaddleOCR to recognize and extract text from images, supporting both file path and base64 input with structured results including text content, confidence scores, and bounding box positions.
OCR MCP Service
统一的 OCR MCP 服务,支持多种 OCR 引擎,通过工具名称区分引擎。
🚀 快速开始
1. 安装
基础安装(必须):
安装 OCR 引擎(至少选择一个):
注意:
paddleocr-mcp工具使用 PaddleOCR 引擎,安装paddleocr后即可使用。
2. 配置 Cursor
3. MCP 服务器启动
重要说明:MCP 服务器由 Cursor 自动启动,无需手动启动。
工作原理:
Cursor 会根据配置文件(
~/.cursor/mcp.json)自动启动 MCP 服务器服务器通过 stdio(标准输入输出)与 Cursor 通信
当你在 Cursor 中调用工具时,Cursor 会自动启动服务器并发送请求
手动测试服务器(可选):
如果你想手动测试服务器是否正常工作:
验证服务器配置:
故障排查:
如果服务器无法启动,检查:
是否已安装:
pip list | grep ocr-mcp-service命令是否在 PATH 中:
which ocr-mcp-server查看 Cursor 的 MCP 日志(在输出面板中选择 "MCP")
查看 OCR 服务日志:查看
logs/ocr_service.log文件
4. 使用
在 Cursor 中直接调用工具:
获取使用指南:
使用示例Prompt模板:
或批量处理:
💡 实际使用案例
案例 1:识别一张图片
假设你有一张图片 东野圭吾图片测试集/IMG_20251124_220855.jpg,在 Cursor 中直接说:
或者:
案例 2:使用不同引擎
中文文档(推荐 PaddleOCR):
多语言文档(使用 EasyOCR):
使用官方 MCP 实现:
案例 3:获取使用指南
案例 4:使用示例Prompt模板
单张图片:
批量处理:
案例 6:查看日志
在 Cursor 中查看 MCP 日志:
打开输出面板(
Ctrl+Shift+U/Cmd+Shift+U),选择 "MCP" 查看实时日志
使用命令行查看日志:
🛠️ 可用工具
工具名称 | 用途 | 推荐场景 |
| PaddleOCR 识别 | 中文文档(推荐) |
| paddleocr-mcp 识别 | 官方 MCP 实现 |
| EasyOCR 识别 | 多语言文档(80+语言) |
| DeepSeek OCR 识别 | 高准确率需求(模型较大) |
| 获取通用 Prompt 模板 | 获取图片分析通用模板 |
| 获取使用指南 | 使用说明和技巧 |
📋 常用命令
📚 了解更多
Prompt 模板指南 - 完整的图片分析工作流指南,包含通用模板和最佳实践
详细文档 - 完整的文档索引,包含实现细节、方案对比、技术文档
API 参考 - 所有工具的详细 API 文档
引擎对比 - 各引擎的详细对比和测试报告
📖 Prompt 模板使用
本工具提供了完整的图片分析 Prompt 指南,帮助你更好地使用 OCR 工具进行图片分析。指南包含:
架构说明:三部分数据流(OCR技术结果、视觉识别、Agent总结)
统一处理流程:单个图片视为批量处理中只有一个元素的情况
通用模板:灵活的通用 Prompt 模板,可根据需求调整
结果存储:文件夹结构和文件命名规范
快速参考:最佳实践和使用技巧
获取方式:
在 Cursor 中使用
get_prompt_template工具获取模板或直接查看
prompt_template.md文档
📄 许可证
MIT