Provides offline OCR capabilities using macOS's native Vision framework, enabling text extraction and layout analysis from images and PDFs with support for multiple languages, smart block aggregation, and table recognition.
macOS 原生 OCR MCP 服务
利用 macOS 内置的强大 Vision 框架,为 Claude 及其他 MCP 客户端提供离线、高精度的 OCR 识别能力。
功能特性
多语言支持:原生支持中文(简/繁)、英文及中英混排,精准识别率高。
PDF 全面支持:内置 PDF 渲染引擎,可自动处理多页 PDF 文档。
智能区块聚合 (Block Aggregation):
针对复杂表格和段落进行优化,不再简单按行切分。
自动识别并保留单元格内容的完整性,避免跨列内容混杂。
支持智能纠错,自动合并被排版截断的中文长句。
LLM 友好输出:提供结构化的 JSON 数据(包含语义块 Block、坐标 BBox、原始行 Lines),完美适配 LLM 文档重建场景。
隐私安全:所有数据均在 macOS 本地处理,无需上传云端,无需 API Key。
零配置:通过
uv安装运行,轻量且快速。
环境要求
macOS 10.15+ (Catalina) 或更高版本。
Python 3.10+。
已安装 uv (
brew install uv)。
安装与使用
你可以直接通过 uvx 使用此 MCP 服务,无需克隆代码仓库。
Claude Desktop 配置
请将以下内容添加到你的 ~/Library/Application Support/Claude/claude_desktop_config.json 文件中:
注意:请确保使用正确的 Git 仓库地址。
如果需要强制更新到最新版本,可以在 args 列表中添加 "--refresh" 参数。
本地开发
克隆仓库:
git clone https://github.com/wenjiazhu/macos-ocr-mcp.git cd macos-ocr-mcp使用
uv运行:# 运行测试脚本 (输出纯文本) uv run src/ocr.py path/to/image.png # 运行 MCP 服务器 uv run src/server.py
工具列表 (Tools)
read_image_text
识别并提取图片或 PDF 中的纯文本。会自动进行段落合并和表格优化。
输入:
image_path(图片或 PDF 的绝对路径)输出: 文本字符串
read_image_layout
提取结构化的版面信息,专为 LLM 重建文档设计。
输入:
image_path(图片或 PDF 的绝对路径)输出: JSON 字符串,包含多个 "Block" 对象。每个 Block 包含:
text: 合并纠错后的语义文本。bbox: 文本块的归一化坐标 (x, y, w, h),用于还原排版。lines: 构成该块的原始行信息(可选,用于精细分析)。
提示词示例(不同识别/转换场景)
小建议:
只想拿到可复制文本:优先用
read_image_text。需要“按版面重建”(表格/多栏/段落/坐标):优先用
read_image_layout。