macOS Native OCR MCP Server

TECHNICAL_ARCHITECTURE.md•54.2 KiB

# macOS OCR MCP Server - 技术架构文档 **版本**: 0.1.0 **文档版本**: 1.0.0 **最后更新**: 2026-01-18 --- ## 目录 1. [执行摘要](#执行摘要) 2. [架构概览](#架构概览) 3. [设计决策](#设计决策) 4. [核心组件](#核心组件) 5. [数据模型](#数据模型) 6. [核心算法](#核心算法) 7. [工作流程](#工作流程) 8. [技术栈详解](#技术栈详解) 9. [性能分析](#性能分析) 10. [可扩展性](#可扩展性) 11. [部署架构](#部署架构) 12. [集成指南](#集成指南) 13. [安全模型](#安全模型) 14. [故障处理](#故障处理) 15. [测试策略](#测试策略) 16. [开发指南](#开发指南) 17. [附录](#附录) --- ## 执行摘要 ### 项目简介 macOS OCR MCP Server 是一个基于 macOS 内置 Vision 框架的离线 OCR 服务，通过 Model Context Protocol (MCP) 为 Claude 及其他 AI 客户端提供高精度的文本识别能力。 ### 核心价值 - **零依赖云端**: 所有 OCR 处理在本地完成，无需 API Key 或网络连接 - **高精度识别**: 利用苹果 Vision 框架的深度学习模型，支持中文（简/繁）、英文及混合文本 - **智能布局分析**: 自动识别文本块、段落、表格结构，提供语义级的文本聚合 - **样式识别**: 区分印刷体和强调文本（手写注释、高亮等） - **MCP 标准集成**: 符合 MCP 协议，可无缝集成到任何支持 MCP 的 AI 客户端 ### 技术亮点 1. **原生性能**: 直接调用 macOS 系统级 OCR 引擎，无需第三方 OCR 库 2. **PDF 支持**: 内置 PDF 渲染引擎，支持多页文档 3. **智能聚合**: 基于坐标和间距的语义块聚类算法 4. **文本纠错**: 自动修复 OCR 常见错误（如中文换行） 5. **轻量架构**: 代码简洁，启动快速，资源占用低 ### 适用场景 - 文档数字化与归档 - 扫描件内容提取 - 图片转 Markdown/CSV - 发票/收据结构化提取 - 代码截图识别 - 多语言文档处理 --- ## 架构概览 ### 系统边界图 ``` ┌─────────────────────────────────────────────────────────┐ │ 外部系统层 │ │ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ │ │ Claude AI │ │ 其他 MCP │ │ 自定义应用 │ │ │ │ Desktop │ │ 客户端 │ │ (Python) │ │ │ └──────┬───────┘ └──────┬───────┘ └──────┬───────┘ │ └─────────┼──────────────────┼──────────────────┼──────────┘ │ │ │ └──────────────────┼──────────────────┘ │ ┌────────▼────────┐ │ MCP 协议层 │ │ (FastMCP) │ └────────┬────────┘ │ ┌──────────────────────────────────────────────────────────┐ │ macOS OCR MCP Server │ │ │ │ ┌────────────────────────────────────────────────────┐ │ │ │ 服务器层 (server.py) │ │ │ │ ┌──────────────────────┐ ┌────────────────────┐ │ │ │ │ │ read_image_text() │ │ read_image_layout()│ │ │ │ 1 │ │ - 纯文本提取 │ │ - 结构化布局分析 │ │ │ │ │ └──────────┬───────────┘ └──────────┬─────────┘ │ │ │ └─────────────┼─────────────────────────┼────────────┘ │ │ │ │ │ │ ┌─────────────▼─────────────────────────▼────────────┐ │ │ │ OCR 核心层 (ocr.py) │ │ │ │ │ │ │ │ ┌─────────┐ ┌────────────┐ ┌──────────────┐ │ │ │ │ │Vision │ │Block │ │Style │ │ │ │ │ │OCR │ │Clustering │ │Analysis │ │ │ │ │ └────┬────┘ └─────┬──────┘ └──────┬───────┘ │ │ │ └───────┼───────────────┼─────────────────┼──────────┘ │ │ │ │ │ │.macos-ocr-mcp └──────────┼───────────────┼─────────────────┼───────────────┘ │ │ │ ┌──────────▼───────────────▼─────────────────▼───────────────┐ │ macOS 系统框架层 │ │ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ │ │Vision 框架 │ │Cocoa 框架 │ │Quartz 框架 │ │ │ │- OCR 引擎 │ │- URL 处理 │ │- PDF 渲染 │ │ │ │- 文本识别 │ │- 图像加载 │ │- CGImage │ │ │ └──────────────┘ └──────────────┘ └──────────────┘ │ └──────────────────────────────────────────────────────────┘ ``` ### 模块依赖关系 ``` server.py (MCP 服务器) ├── ocr.py (OCR 核心) │ ├── Vision (macOS OCR) │ ├── Quartz (PDF 处理) │ ├── Cocoa (NS URL) │ ├── PIL (图像处理) │ └── NumPy (数值计算) └── FastMCP (MCP 框架) ``` ### 文件结构 ``` macos-ocr-mcp/ ├── src/ # 核心代码 │ ├── server.py # MCP 服务器与工具注册 (47 行) │ ├── ocr.py # OCR 核心算法 (539 行) │ └── __init__.py # 模块初始化 ├── skills/ # Claude Skill 定义 │ └── macos-ocr-helper/ │ ├── SKILL.md │ └── references/ │ ├── examples.md │ └── best_practices.md ├── tests/ # 测试文件 ├── test_assets/ # 测试资源 ├── pyproject.toml # 项目配置 ├── requirements.txt # 依赖声明 ├── CLAUDE.md # 项目文档 └── readme.md # 用户指南 ``` --- ## 设计决策 ### 决策 1: 使用 macOS Vision 框架 **问题**: 为什么选择 macOS Vision 框架而非第三方 OCR 库（如 Tesseract）？ **决策**: 直接调用 macOS 内置 Vision 框架进行 OCR **理由**: 1. **性能优势**: Vision 框架使用苹果优化的深度学习模型，在 Apple Silicon 芯片上加速 2. **准确性**: 苹果的 OCR 模型经过海量数据训练，对中英文混合文本识别率极高 3. **零依赖**: 无需安装额外的 OCR 引擎或模型文件 4. **离线运行**: 所有处理在本地完成，无需网络连接 5. **系统更新**: 随着 macOS 系统更新，OCR 能力自动提升 **权衡**: - **优点**: 开箱即用，性能卓越 - **缺点**: 仅支持 macOS 平台，无法跨平台 ### 决策 2: 使用 FastMCP 框架 **问题**: 如何实现 MCP 协议集成？ **决策**: 使用 `FastMCP` 框架声明式注册工具 **理由**: 1. **简洁性**: 装饰器模式（`@mcp.tool()`）使工具注册极其简单 2. **类型安全**: 自动处理参数验证和类型转换 3. **文档生成**: 自动从函数 docstring 生成工具描述 4. **标准化**: 遵循 MCP 规范，与 Claude Desktop 无缝集成 **实现**: ```python from mcp.server.fastmcp import FastMCP mcp = FastMCP("macos-ocr") @mcp.tool() def read_image_text(image_path: str) -> str: """工具描述自动生成""" return recognize_text(image_path) ``` ### 决策 3: 智能区块聚合算法 **问题**: 如何将 OCR 输出的文本行组织成语义块？ **决策**: 使用并查集算法基于垂直连续性和水平对齐进行聚类 **理由**: 1. **语义完整性**: 将属于同一段落/表格单元格的多行文本合并 2. **表格优化**: 避免跨列内容混杂，保持单元格完整性 3. **高效性**: O(N²) 复杂度，N 通常 < 1000，性能可接受 4. **准确性**: 通过多维度判断（垂直间距 + 水平对齐）提高聚类质量 **算法细节**: ```python def cluster_into_blocks(layout_items): # 使用并查集合并满足以下条件的文本行: # 1. 垂直方向连续（gap < 2.5 * avg_height） # 2. 水平方向对齐（重叠 > 30% 或左对齐 < 2% 或居中对齐 < 2%） ... ``` ### 决策 4: 样式分析机制 **问题**: 如何区分印刷体和强调文本（如手写注释、高亮）？ **决策**: 通过计算文本像素的 RGB 通道差异判断颜色饱和度 **理由**: 1. **无需机器学习**: 基于启发式规则，计算简单，速度快 2. **准确率高**: 印刷体通常为黑色（R≈G≈B），强调文本多为彩色 3. **鲁棒性**: 对扫描噪声有容错（阈值 diff > 10） **实现**: ```python # 计算彩色度偏差 diff = np.mean(np.abs(r - g) + np.abs(r - b) + np.abs(g - b)) if diff > 10: block["type"] = "emphasized" # 彩色文本 else: block["type"] = "print" # 黑色印刷体 ``` **权衡**: - **优点**: 轻量级，无需额外模型 - **缺点**: 可能误判某些彩色印刷体（可通过调整阈值优化） ### 决策 5: 使用归一化坐标 **问题**: 如何表示文本块的位置信息？ **决策**: 使用归一化坐标 [0, 1]，原点在左下角（Vision 框架标准） **理由**: 1. **分辨率无关**: 适用于不同尺寸的图像/PDF 2. **跨页一致**: PDF 多页可统一使用相同坐标系 3. **LLM 友好**: JSON 序列化时更简洁 **坐标转换**: ```python # Vision 坐标（左下角原点）→ Pillow 坐标（左上角原点） y_pillow_top = height * (1 - (y_vision + h_vision)) y_pillow_bottom = height * (1 - y_vision) ``` ### 决策 6: 支持 PDF 多页处理 **问题**: 如何处理 PDF 文档？ **决策**: 使用 Quartz 框架将 PDF 每页渲染为 CGImage，逐页进行 OCR **理由**: 1. **原生支持**: Quartz 是 macOS 系统框架，无需第三方 PDF 库 2. **质量保证**: 系统级渲染保证字体和排版还原准确 3. **页面信息**: 保留页码，便于文档重建 **实现流程**: ``` PDF 文件 ↓ Quartz.CGPDFDocumentCreateWithURL ↓ 遍历所有页面 (1..N) ↓ CGPDFPageGetBoxRect + CGBitmapContextCreate ↓ CGContextDrawPDFPage → CGImage ↓ Vision OCR 识别 ↓ 返回带页码的文本块 ``` ### 决策 7: 智能文本合并 **问题**: 如何修复 OCR 错误换行（如中文句子被拆分）？ **决策**: 使用正则表达式匹配被换行分隔的中文汉字并合并 **实现**: ```python def smart_merge_text(text): # 匹配：中文汉字 + 换行 + 中文汉字 pattern = r'([\u4e00-\u9fa5])[\n\s]+([\u4e00-\u9fa5])' return re.sub(pattern, r'\1\2', text) ``` **理由**: 1. **语言特性**: 中文句子中，换行通常不应出现在两个汉字之间 2. **简单有效**: 单行正则即可解决 90% 的换行错误 3. **保留语义**: 不影响正常的段落分隔（通常有额外空格） --- ## 核心组件 ### 1. MCP 服务器 (server.py) #### 职责 - 初始化 FastMCP 服务器 - 注册 OCR 工具（read_image_text, read_image_layout） - 处理文件存在性检查 - 错误捕获与转换 #### 核心函数 ##### `main()` 启动 MCP 服务器，监听 MCP 客户端请求。 ```python def main(): mcp.run() ``` ##### `read_image_text(image_path: str) -> str` 提取图片或 PDF 中的纯文本。 **参数**: - `image_path`: 图片或 PDF 的绝对路径 **返回**: 识别后的纯文本字符串 **错误处理**: - 文件不存在: `raise FileNotFoundError` - OCR 失败: 返回错误消息字符串 ##### `read_image_layout(image_path: str) -> str` 提取结构化的版面信息。 **参数**: - `image_path`: 图片或 PDF 的绝对路径 **返回**: JSON 字符串，包含文本块列表 **数据结构**: ```json [ { "id": 1, "page": 1, "text": "段落内容", "bbox": {"x": 0.1, "y": 0.2, "w": 0.8, "h": 0.1}, "type": "print", "lines": [...] } ] ``` #### 调用流程 ``` MCP Client 请求 ↓ FastMCP 路由 ↓ read_image_text/read_image_layout ↓ 文件存在性检查 ↓ ocr.recognize_text/recognize_text_with_layout ↓ 返回结果 ``` --- ### 2. OCR 核心引擎 (ocr.py) #### 模块职责 - 调用 macOS Vision 框架进行 OCR - PDF 文件处理（分页渲染） - 文本块聚类与排序 - 样式分析 - 智能文本合并 #### 核心函数 ##### `recognize(image_path: str, fast: bool = False) -> List[Tuple[int, List]]` 执行 OCR 识别的底层函数。 **参数**: - `image_path`: 图片或 PDF 路径 - `fast`: 是否使用快速模式（默认 False，使用准确模式） **返回**: 页面索引和 OCR 结果的元组列表 **流程**: ``` image_path ↓ 判断文件类型 ↓ ┌───────────────┬──────────────┐ │ .pdf │ 图片 │ │ │ │ │ 遍历 PDF 页面 │ 直接加载图片 │ │ ↓ │ ↓ │ │ CGImage │ NSURL │ └───────┬───────┴───────┬───────┘ ↓ ↓ perform_ocr_on_handler ↓ Vision.VNRecognizeTextRequest ↓ 返回结果 ``` ##### `perform_ocr_on_handler(handler, fast: bool)` 创建并执行 Vision OCR 请求。 **关键配置**: ```python request = Vision.VNRecognizeTextRequest.alloc().init() request.setRecognitionLevel_( Vision.VNRequestTextRecognitionLevelAccurate # 高精度模式 ) request.setUsesLanguageCorrection_(True) # 启用语言纠错 request.setRecognitionLanguages_( ["zh-Hans", "zh-Hant", "en-US"] # 中文简体、繁体、英文 ) ``` ##### `get_pdf_page_images(pdf_path)` 将 PDF 页面渲染为 CGImage 对象。 **实现细节**: ```python # 使用 Quartz 框架 pdf_doc = Quartz.CGPDFDocumentCreateWithURL(url) for page_index in range(1, page_count + 1): page = Quartz.CGPDFDocumentGetPage(pdf_doc, page_index) rect = Quartz.CGPDFPageGetBoxRect(page, Quartz.kCGPDFMediaBox) # 创建位图上下文 context = Quartz.CGBitmapContextCreate(...) Quartz.CGContextDrawPDFPage(context, page) # 生成 CGImage cg_image = Quartz.CGBitmapContextCreateImage(context) yield page_index, cg_image ``` ##### `recognize_text(image_path: str) -> str` 公开 API: 提取纯文本。 **处理流程**: ``` OCR 识别 ↓ 提取文本行 ↓ 区块聚类 (cluster_into_blocks) ↓ 区块排序 (sort_blocks) ↓ 构建文本 (construct_block_text) ↓ 智能合并 (smart_merge_text) ↓ 返回纯文本 ``` ##### `recognize_text_with_layout(image_path: str) -> List[Dict]` 公开 API: 提取结构化版面信息。 **处理流程**: ``` OCR 识别 ↓ 提取文本行（含置信度） ↓ 区块聚类 ↓ 区块排序 ↓ 构建结构化数据（Block + BBox） ↓ 样式分析 (analyze_style_for_blocks) ↓ 返回 JSON ``` --- ### 3. 区块聚类算法 #### `cluster_into_blocks(layout_items)` **目的**: 将相邻的文本行聚合成语义块（段落、表格单元格等） **算法**: 并查集（Union-Find） **输入**: 文本行列表 ```python [ { "text": "第一行", "bbox": {"x": 0.1, "y": 0.8, "w": 0.8, "h": 0.05}, "confidence": 0.95 }, ... ] ``` **输出**: 文本块列表 ```python [ [ {"text": "第一行", ...}, {"text": "第二行", ...} ], ... ] ``` **聚类条件**: 1. **垂直连续性**: ```python def is_vertically_connected(item_top, item_bottom, other): gap = item_bottom - other_top avg_h = (item_top - item_bottom + other_top - other_bottom) / 2 # 允许 -0.8 到 2.5 倍行高的间隙 return -0.8 * avg_h < gap < 2.5 * avg_h ``` 2. **水平对齐**: ```python def is_horizontally_aligned(item, other): # 1. 显著重叠（> 30% 较小宽度） if overlap_w > 0.3 * min_w: return True # 2. 左对齐（< 2% 偏差） if abs(l1 - l2) < 0.02: return True # 3. 居中对齐（< 2% 偏差） if abs(c1 - c2) < 0.02: return True return False ``` **时间复杂度**: O(N²)，N 为文本行数（通常 < 1000） **优化空间**: - 可先按 Y 坐标排序，减少比较次数 - 可使用空间索引（如 R-Tree）加速邻近查询 --- ### 4. 区块排序算法 #### `sort_blocks(blocks)` **目的**: 按阅读顺序（从上到下、从左到右）排序文本块 **算法**: 分带（Banding）排序 **步骤**: 1. 按 Y 坐标（从上到下）排序 2. 将 Y 坐标相近的块归为同一带（Band） 3. 对每个带内的块按 X 坐标排序 **实现**: ```python # 初始按 Y 排序 blocks.sort(key=lambda b: -get_block_bbox(b)[3]) # max_y # 分带逻辑 current_band = [blocks[0]] first_top = get_block_bbox(blocks[0])[3] for blk in blocks[1:]: top = get_block_bbox(blk)[3] # 如果在 5% 屏幕高度内，视为同一带 if abs(first_top - top) < 0.05: current_band.append(blk) else: # 当前带按 X 排序 current_band.sort(key=lambda b: get_block_bbox(b)[0]) sorted_blocks.extend(current_band) current_band = [blk] ``` **优势**: - 正确处理多栏布局 - 保证表格列的顺序 - 适配复杂排版（如杂志、论文） --- ### 5. 样式分析 #### `analyze_style_for_blocks(image_path, blocks)` **目的**: 区分印刷体（print）和强调文本（emphasized） **原理**: 基于颜色饱和度的启发式判断 **流程**: ``` 遍历每个文本块 ↓ 获取块的边界框 ↓ 转换坐标（Vision → Pillow） ↓ 裁剪图像区域 ↓ 过滤文本像素（R,G,B < 220） ↓ 计算彩色度偏差: |R-G| + |R-B| + |G-B| ↓ 判断: diff > 10 → "emphazied", 否则 "print" ``` **关键代码**: ```python # 转换坐标（Vision 左下角 → Pillow 左上角） y1 = int(height * (1 - (b_y + b_h))) # top y2 = int(height * (1 - b_y)) # bottom # 裁剪 patch = img.crop((x1, y1, x2, y2)) # 过滤文本像素（非白色背景） mask = np.mean(arr, axis=2) < 220 text_pixels = arr[mask] # 计算彩色度偏差 r, g, b = text_pixels[:, 0], text_pixels[:, 1], text_pixels[:, 2] diff = np.mean(np.abs(r - g) + np.abs(r - b) + np.abs(g - b)) # 阈值判断 if diff > 10: block["type"] = "emphasized" else: block["type"] = "print" ``` **适用场景**: - 手写批注识别 - 高亮文本提取 - 红色批注过滤 - 印刷体与手写体分离 **限制**: - PDF 文件跳过样式分析（预期行为） - 可能误判某些彩色印刷体 --- ### 6. 辅助函数 #### `normalize_bbox(bbox)` 将 Vision 的 CGRect 转换为归一化字典。 ```python def normalize_bbox(bbox): return { "x": bbox.origin.x, "y": bbox.origin.y, "w": bbox.size.width, "h": bbox.size.height, } ``` #### `get_block_bbox(block)` 计算块的边界框（并集中所有行的 bbox）。 ```python def get_block_bbox(block): min_x = min(i['bbox']['x'] for i in block) max_x = max(i['bbox']['x'] + i['bbox']['w'] for i in block) min_y = min(i['bbox']['y'] for i in block) # Bottom max_y = max(i['bbox']['y'] + i['bbox']['h'] for i in block) # Top return min_x, min_y, max_x, max_y ``` #### `construct_block_text(block)` 构建块的文本内容（按行排序 + 智能合并）。 ```python def construct_block_text(block): # 块内行从上到下排序 block.sort(key=lambda i: i['bbox']['y'] + i['bbox']['h'], reverse=True) lines = [i['text'] for i in block] raw_text = "\n".join(lines) return smart_merge_text(raw_text) ``` #### `smart_merge_text(text)` 修复 OCR 错误换行。 ```python def smart_merge_text(text): pattern = r'([\u4e00-\u9fa5])[\n\s]+([\u4e00-\u9fa5])' return re.sub(pattern, r'\1\2', text) ``` --- ## 数据模型 ### 1. 文本行 Vision 框架返回的原始 OCR 结果。 ```python { "text": str, # 识别文本 "confidence": float, # 置信度 [0, 1] "bbox": { "x": float, # x 坐标 [0, 1] "y": float, # y 坐标 [0, 1]（左下角原点） "w": float, # 宽度 [0, 1] "h": float # 高度 [0, 1] } } ``` ### 2. 文本块聚类后的语义块（段落、单元格等）。 ```python [ { "text": str, # 合并后的文本 "bbox": { "x": float, # 块的左边界 "y": float, # 块的下边界 "w": float, # 块的宽度 "h": float # 块的高度 } } ] ``` ### 3. 结构化块 `read_image_layout` 返回的完整数据结构。 ```python { "id": int, # 块编号（从 1 开始） "page": int, # 页码 "text": str, # 合并纠错后的文本 "bbox": { "x": float, # 归一化 x 坐标 "y": float, # 归一化 y 坐标 "w": float, # 归一化宽度 "h": float # 归一化高度 }, "type": str, # 样式类型 # - "print": 印刷体（黑色） # - "emphasized": 强调文本（彩色） "lines": list # 构成该块的原始行信息 } ``` ### 4. MCP 工具响应 #### `read_image_text` 响应 ```python "识别后的纯文本内容..." ``` #### `read_image_layout` 响应 ```json { "blocks": [ { "id": 1, "page": 1, "text": "段落内容...", "bbox": {"x": 0.1, "y": 0.2, "w": 0.8, "h": 0.1}, "type": "print", "lines": [...] }, ... ] } ``` ### 5. 坐标系统 #### Vision 坐标系（归一化） - 原点 (0, 0) 在左下角 - X 轴向右增长 - Y 轴向上增长 - 所有坐标在 [0, 1] 范围内 #### Pillow 坐标系（像素） - 原点 (0, 0) 在左上角 - X 轴向右增长 - Y 轴向下增长 - 单位为像素 #### 坐标转换公式 ```python # Vision → Pillow（y 坐标） y_pillow_top = height * (1 - (y_vision + h_vision)) y_pillow_bottom = height * (1 - y_vision) # Vision → Pillow（x 坐标） x_pillow_left = x_vision * width x_pillow_right = (x_vision + w_vision) * width ``` --- ## 核心算法 ### 算法 1: 区块聚类（Union-Find） **问题**: 将 N 个文本行聚类为语义块 **输入**: 文本行列表 `layout_items` **输出**: 文本块列表 `blocks` **步骤**: ``` 1. 初始化并查集 parent[i] = i, for i in 0..N-1 2. 构建连接图 for i in 0..N-1: for j in i+1..N-1: if is_connected(layout_items[i], layout_items[j]): union(i, j) 3. 提取聚类 groups = defaultdict(list) for i in 0..N-1: root = find(i) groups[root].append(layout_items[i]) 4. 返回聚类列表 return list(groups.values()) ``` **连接判断**: ```python def is_connected(item1, item2): # 确定上下关系 if item1.y > item2.y: upper, lower = item1, item2 else: upper, lower = item2, item1 # 检查垂直连续性 if not is_vertically_connected(upper, lower): return False # 检查水平对齐 if not is_horizontally_aligned(upper, lower): return False return True ``` **时间复杂度**: O(N² * α(N))，α 为反阿克曼函数（可视为常数） **空间复杂度**: O(N) --- ### 算法 2: 区块排序（Banding） **问题**: 按阅读顺序排序文本块 **输入**: 文本块列表 `blocks` **输出**: 排序后的文本块列表 **步骤**: ``` 1. 按 Y 坐标降序排序（从上到下） blocks.sort(key=lambda b: -max_y(b)) 2. 分带（Banding） current_band = [blocks[0]] band_top = max_y(blocks[0]) for block in blocks[1:]: # 如果在 5% 屏幕高度内，视为同一带 if abs(max_y(block) - band_top) < 0.05: current_band.append(block) else: # 带内按 X 排序（从左到右） current_band.sort(key=lambda b: min_x(b)) result.extend(current_band) current_band = [block] band_top = max_y(block) return result ``` **时间复杂度**: O(N log N) **适用场景**: - 多栏文档 - 表格 - 杂志排版 - 学术论文 --- ### 算法 3: 样式分析 **问题**: 判断文本块是印刷体还是强调文本 **输入**: 图像路径，文本块列表 **输出**: 更新每个块的 `type` 字段 **步骤**: ``` for each block: 1. 获取块的边界框（Vision 坐标） 2. 转换为 Pillow 坐标 3. 裁剪图像区域 4. 过滤文本像素（非白色背景） 5. 计算彩色度偏差: diff = mean(|R-G| + |R-B| + |G-B|) 6. 判断: if diff > 10: block.type = "emphasized" else: block.type = "print" ``` **颜色示例**: | 颜色 | RGB | 彩色度偏差 | 类型 | |------|-----|-----------|------| | 黑色 | (0, 0, 0) | 0 | print | | 深灰 | (50, 50, 50) | 0 | print | | 白色背景 | (240, 240, 240) | 0 | 背景忽略 | | 红色 | (255, 0, 0) | 510 | emphasized | | 蓝色 | (0, 0, 255) | 510 | emphasized | | 绿色 | (0, 255, 0) | 510 | emphasized | **时间复杂度**: O(N * P)，N 为块数，P 为每块像素数 --- ## 工作流程 ### 流程 1: 纯文本提取 ``` ┌─────────────────┐ │ 用户请求 │ │ image_path │ └────────┬────────┘ │ ▼ ┌─────────────────┐ │ 文件存在性检查 │ └────────┬────────┘ │ ▼ ┌─────────────────┐ │ recognize_text │ └(ocr.py) ─────────┘ │ ▼ ┌─────────────────┐ │ OCR 识别 │ │ (Vision 框架) │ └────────┬────────┘ │ ▼ ┌─────────────────┐ │ 提取文本行 │ └────────┬────────┘ │ ▼ ┌─────────────────┐ │ 区块聚类 │ │ (Union-Find) │ └────────┬────────┘ │ ▼ ┌─────────────────┐ │ 区块排序 │ │ (Banding) │ └────────┬────────┘ │ ▼ ┌─────────────────┐ │ 构建文本 │ │ (智能合并) │ └────────┬────────┘ │ ▼ ┌─────────────────┐ │ 返回纯文本 │ └─────────────────┘ ``` ### 流程 2: 结构化布局提取 ``` ┌─────────────────┐ │ 用户请求 │ │ image_path │ └────────┬────────┘ │ ▼ ┌─────────────────┐ │ 文件存在性检查 │ └────────┬────────┘ │ ▼ ┌──────────────────────────┐ │ recognize_text_with_layout │ └(ocr.py) ──────────────────┘ │ ▼ ┌─────────────────┐ │ OCR 识别 │ │ (含置信度) │ └────────┬────────┘ │ ▼ ┌─────────────────┐ │ 提取文本行 │ └────────┬────────┘ │ ▼ ┌─────────────────┐ │ 区块聚类 │ └────────┬────────┘ │ ▼ ┌─────────────────┐ │ 区块排序 │ └────────┬────────┘ │ ▼ ┌─────────────────┐ │ 构建结构化 │ │ (Block+ BBox) │ └────────┬────────┘ │ ▼ ┌─────────────────┐ │ 样式分析 │ │ (PIL + NumPy) │ └────────┬────────┘ │ ▼ ┌─────────────────┐ │ 返回 JSON │ └─────────────────┘ ``` ### 流程 3: PDF 处理 ``` ┌─────────────────┐ │ PDF 文件 │ └────────┬────────┘ │ ▼ ┌─────────────────┐ │ Quartz 加载 │ │ PDF 文档 │ └────────┬────────┘ │ ▼ ┌─────────────────┐ │ 遍历页面 │ │ (1..N) │ └────────┬────────┘ │ ▼ ┌─────────────────┐ │ 创建位图上下文 │ └────────┬────────┘ │ ▼ ┌─────────────────┐ │ 渲染 PDF 页 │ │ → CGImage │ └────────┬────────┘ │ ▼ ┌────────────────────────────┐ │ Vision OCR 识别 │ │ (返回页面索引 + 结果) │ └────────┬───────────────────┘ │ ▼ ┌─────────────────┐ │ 页码标记 │ └────────┬────────┘ │ ▼ ┌─────────────────┐ │ 继续下一页? │ └────────┬────────┘ │ ▼ ┌─────────────────┐ │ 返回所有页面 │ └─────────────────┘ ``` --- ## 技术栈详解 ### 1. MCP (Model Context Protocol) **版本**: 1.24.0 **用途**: 标准化 AI 客户端与工具服务器之间的通信 **核心组件**: - `FastMCP`: 声明式 MCP 服务器框架 - 工具注册: `@mcp.tool()` 装饰器 - 自动文档生成: 从函数签名和 docstring 生成工具描述 **集成方式**: ```json { "mcpServers": { "macos-ocr": { "command": "uvx", "args": [ "--from", "git+https://github.com/wenjiazhu/macos-ocr-mcp.git", "macos-ocr" ] } } } ``` ### 2. pyobjc-framework-Vision **版本**: 12.1 **用途**: Python 绑定 macOS Vision 框架 **核心 API**: - `VNRecognizeTextRequest`: 文本识别请求 - `VNImageRequestHandler`: 图像请求处理器 - `VNRequestTextRecognitionLevelAccurate`: 高精度模式 - `VNRequestTextRecognitionLevelFast`: 快速模式 **关键配置**: ```python request.setRecognitionLevel_(Vision.VNRequestTextRecognitionLevelAccurate) request.setUsesLanguageCorrection_(True) request.setRecognitionLanguages_(["zh-Hans", "zh-Hant", "en-US"]) ``` ### 3. pyobjc-framework-QuCocoa **版本**: 12.1 **用途**: Python 绑定 macOS Cocoa 框架 **核心 API**: - `NSURL`: 文件 URL 处理 ### 4. pyobjc-framework-Quartz **版本**: 12.1 **用途**: Python 绑定 macOS Quartz 框架（PDF 处理） **核心 API**: - `CGPDFDocumentCreateWithURL`: 加载 PDF 文档 - `CGPDFDocumentGetNumberOfPages`: 获取页数 - `CGPDFDocumentGetPage`: 获取指定页 - `CGPDFPageGetBoxRect`: 获取页面边界 - `CGBitmapContextCreate`: 创建位图上下文 - `CGContextDrawPDFPage`: 渲染 PDF 页 - `CGBitmapContextCreateImage`: 从上下文创建 CGImage ### 5. Pillow (PIL) **版本**: >= 12.0.0 **用途**: 图像处理与样式分析 **核心 API**: - `Image.open`: 打开图像文件 - `ImageOps.exif_transpose`: 处理 EXIF 旋转 - `img.convert('RGB')`: 转换颜色空间 - `img.crop`: 裁剪图像区域 ### 6. NumPy **版本**: >= 2.2.6 **用途**: 数值计算与像素分析 **核心 API**: - `np.array`: 转换为 NumPy 数组 - `np.mean`: 计算平均值 - `np.abs`: 计算绝对值 - `np.any`: 判断是否存在满足条件的元素 ### 7. uv **用途**: Python 包管理与项目运行 **优势**: - 快速依赖解析 - 隔离的虚拟环境 - 一键运行: `uv run script.py` - 远程执行: `uvx --from git+... package` --- ## 性能分析 ### 性能指标 #### OCR 识别速度 | 图像类型 | 分辨率 | 识别时间 | 说明 | |---------|-------|---------|------| | 文本图片 | 1920x1080 | ~2-3 秒 | 准确模式 | | 文本图片 | 1920x1080 | ~0.5-1 秒 | 快速模式 | | PDF 页面 | A4 (300 DPI) | ~3-5 秒/页 | 准确模式 | | PDF 页面 | A4 (300 DPI) | ~1-2 秒/页 | 快速模式 | #### 算法复杂度 | 算法 | 时间复杂度 | 空间复杂度 | 备注 | |-----|-----------|-----------|------| | 区块聚类 | O(N²) | O(N) | N < 1000 通常 | | 区块排序 | O(N log N) | O(N) | Banding 排序 | | 样式分析 | O(N * P) | O(P) | P 为每块像素数 | | 智能合并 | O(L) | O(L) | L 为文本长度 | #### 内存占用 | 场景 | 内存占用 | 说明 | |-----|---------|------| | 单张图片 OCR | ~50-100 MB | 包括图像加载 + OCR 缓存 | | PDF 多页处理 | ~100-200 MB | 每页依次处理 | | 样式分析 | +20-50 MB | Pillow + NumPy 内存 | ### 性能优化建议 #### 1. 使用快速模式（trade-off 精度） ```python # ocr.py 中已配置 recognize(image_path, fast=True) # 牺牲少量精度换取速度 ``` #### 2. 优化区块聚类算法当前 O(N²) 在 N < 1000 时可接受，但对于超大文档可优化： ```python # 可选优化：先按 Y 坐标排序，减少比较次数 items_sorted = sorted(layout_items, key=lambda i: i['bbox']['y'], reverse=True) for i in range(n): for j in range(i + 1, min(i + 100, n)): # 只比较后 100 个 ... ``` #### 3. 批量处理 PDF 当前逐页处理，可改为并行处理（需考虑 macOS Vision 并发限制）。 #### 4. 图像预处理对低质量图像进行预处理可提高 OCR 准确率： ```python from PIL import Image, ImageEnhance img = Image.open(path) img = ImageEnhance.Contrast(img).enhance(1.5) # 增强对比度 img = ImageEnhance.Sharpness(img).enhance(1.2) # 增强锐度 ``` ### 瓶颈分析 | 瓶颈 | 影响 | 优化方向 | |-----|------|---------| | Vision OCR 识别 | 主要耗时 | 使用快速模式，或降低分辨率 | | PDF 渲染 | 次要耗时 | 预渲染并缓存 | | 区块聚类 | 对于超大文档 | 优化算法复杂度 | | 样式分析 | 对于大量块 | 降低采样率 | --- ## 可扩展性 ### 扩展点 1: 支持更多 OCR 引擎当前仅支持 macOS Vision 框架，可扩展支持其他引擎： ```python # 抽象 OCR 引擎接口 class OCREngine(Protocol): def recognize(self, image: bytes) -> List[TextLine]: ... # macOS Vision 实现 class VisionOCREngine: def recognize(self, image: bytes) -> List[TextLine]: ... # Tesseract 实现（跨平台） class TesseractOCREngine: def recognize(self, image: bytes) -> List[TextLine]: ... ``` ### 扩展点 2: 支持更多图像格式当前通过 Pillow 支持常见格式，可扩展支持： - HEIF（macOS 原生照片格式） - SVG（需转换为栅格） - WebP（Pillow 已支持） ### 扩展点 3: 自定义区块聚类算法当前使用固定聚类参数，可支持用户自定义： ```python def cluster_into_blocks(layout_items, vertical_gap_threshold: float = 2.5, horizontal_overlap_threshold: float = 0.3, alignment_tolerance: float = 0.02): ... ``` ### 扩展点 4: 插件系统支持第三方插件扩展功能： ```python # 插件接口 class OCRPlugin: def post_process(self, blocks: List[Block]) -> List[Block]: ... # 注册插件 plugins.register(StyleAnalysisPlugin()) plugins.register(TableDetectionPlugin()) ``` ### 扩展点 5: 批量处理 API 当前仅支持单文件处理，可扩展批量 API： ```python @mcp.tool() def batch_read_images(image_paths: List[str]) -> List[str]: """批量识别多张图片""" results = [] for path in image_paths: results.append(recognize_text(path)) return results ``` ### 扩展点 6: 配置系统当前硬编码配置，可支持配置文件： ```yaml # config.yaml ocr: engine: "vision" fast_mode: false languages: - "zh-Hans" - "zh-Hant" - "en-US" clustering: vertical_gap_threshold: 2.5 horizontal_overlap_threshold: 0.3 style_analysis: enabled: true color_threshold: 10 ``` --- ## 部署架构 ### 本地部署（推荐） #### 方式 1: 使用 uvx（无需克隆） ```json { "mcpServers": { "macos-ocr": { "command": "uvx", "args": [ "--from", "git+https://github.com/wenjiazhu/macos-ocr-mcp.git", "macos-ocr" ] } } } ``` **优势**: - 无需克隆仓库 - 自动更新到最新版本 - 隔离环境，不影响系统 Python #### 方式 2: 本地运行 ```bash # 安装依赖 uv pip install -r requirements.txt # 运行服务器 uv run src/server.py ``` **配置**: ```json { "mcpServers": { "macos-ocr": { "command": "uv", "args": ["run", "/path/to/macos-ocr-mcp/src/server.py"], "cwd": "/path/to/macos-ocr-mcp" } } } ``` ### 系统要求 - **操作系统**: macOS 10.15+ (Catalina) 或更高 - **Python**: 3.10+ - **依赖**: uv（`brew install uv`） ### 启动时间 | 场景 | 启动时间 | 说明 | |-----|---------|------| | 首次启动（uvx） | ~5-10 秒 | 下载依赖 | | 后续启动（uvx） | ~1-2 秒 | 缓存命中 | | 本地运行 | ~0.5-1 秒 | 直接执行 | ### 资源占用 | 资源 | 占用 | 说明 | |-----|------|------| | 内存 | ~50-100 MB | Python 解释器 + 依赖 | | CPU | 单核 | Vision OCR 在主线程运行 | | 网络 | 无 | 完全离线 | --- ## 集成指南 ### 集成到 Claude Desktop #### 步骤 1: 编辑配置文件打开 `~/Library/Application Support/Claude/claude_desktop_config.json` #### 步骤 2: 添加服务器配置 ```json { "mcpServers": { "macos-ocr": { "command": "uvx", "args": [ "--from", "git+https://github.com/wenjiazhu/macos-ocr-mcp.git", "macos-ocr" ] } } } ``` #### 步骤 3: 重启 Claude Desktop 配置生效需要重启应用。 #### 步骤 4: 验证集成在 Claude 中测试： ``` 请调用 macos-ocr 的 read_image_text 读取以下文件： /Users/zzz/Pictures/screenshot.png ``` ### 集成到自定义 Python 应用 #### 方式 1: 直接调用 OCR 函数 ```python import sys sys.path.insert(0, '/path/to/macos-ocr-mcp/src') from ocr import recognize_text, recognize_text_with_layout # 纯文本提取 text = recognize_text('/path/to/image.png') print(text) # 结构化布局 layout = recognize_text_with_layout('/path/to/image.png') print(layout) ``` #### 方式 2: 通过 MCP 协议 ```python from mcp import ClientSession from mcp.client.stdio import StdioClientTransport # 连接到 MCP 服务器 transport = StdioClientTransport( command="uv", args=["run", "/path/to/macos-ocr-mcp/src/server.py"] ) session = ClientSession(transport) await session.initialize() # 调用工具 result = await session.call_tool( "read_image_text", arguments={"image_path": "/path/to/image.png"} ) print(result.content[0].text) ``` ### 集成到其他 MCP 客户端任何支持 MCP 协议的客户端都可以集成此服务： 1. 配置 MCP 服务器端点 2. 通过 MCP 协议调用工具 3. 处理返回结果 --- ## 安全模型 ### 隐私保证 - **离线处理**: 所有 OCR 处理在本地完成，不发送任何数据到云端 - **无 API Key**: 无需配置任何密钥或凭证 - **无网络访问**: 不依赖网络连接 - **无数据收集**: 不收集任何使用数据 ### 输入验证 #### 文件路径验证 ```python # 检查文件是否存在 if not os.path.exists(image_path): raise FileNotFoundError(f"Image file not found: {image_path}") ``` #### 文件类型验证当前依赖 Vision 框架处理不支持的格式（会抛出异常）。可添加扩展验证： ```python ALLOWED_EXTENSIONS = {'.png', '.jpg', '.jpeg', '.gif', '.tiff', '.bmp', '.pdf'} def validate_file_type(path): ext = os.path.splitext(path)[1].lower() if ext not in ALLOWED_EXTENSIONS: raise ValueError(f"Unsupported file type: {ext}") ``` ### 错误处理 #### 服务器层错误处理 ```python @mcp.tool() def read_image_text(image_path: str) -> str: try: return recognize_text(image_path) except Exception as e: return f"Error processing image: {str(e)}" ``` #### OCR 层错误处理 ```python success, error = handler.performRequests_error_([request], None) if not success: raise RuntimeError(f"OCR failed: {error}") ``` ### 资源限制 #### 内存限制当前无显式限制，依赖系统内存管理。可添加： ```python import resource # 限制内存使用（例如 500MB） MAX_MEMORY = 500 * 1024 * 1024 resource.setrlimit(resource.RLIMIT_AS, (MAX_MEMORY, MAX_MEMORY)) ``` #### 文件大小限制 ```python MAX_FILE_SIZE = 100 * 1024 * 1024 # 100 MB def validate_file_size(path): size = os.path.getsize(path) if size > MAX_FILE_SIZE: raise ValueError(f"File too large: {size} bytes") ``` ### 安全最佳实践 1. **路径遍历防护**: ```python # 确保路径在预期目录内 import pathlib base_dir = pathlib.Path('/safe/directory') requested_path = pathlib.Path(image_path).resolve() if not str(requested_path).startswith(str(base_dir)): raise PermissionError("Access denied") ``` 2. **权限检查**: ```python if not os.access(image_path, os.R_OK): raise PermissionError(f"No read permission: {image_path}") ``` 3. **超时处理**: ```python import signal def timeout_handler(signum, frame): raise TimeoutError("OCR timeout") signal.signal(signal.SIGALRM, timeout_handler) signal.alarm(30) # 30 秒超时 ``` --- ## 故障处理 ### 常见错误与解决方案 #### 错误 1: 文件未找到 **错误信息**: ``` FileNotFoundError: Image file not found: /path/to/image.png ``` **原因**: 文件路径错误或文件不存在 **解决方案**: - 检查文件路径是否正确（使用绝对路径） - 确认文件存在 - 检查文件权限 #### 错误 2: OCR 失败 **错误信息**: ``` RuntimeError: OCR failed: ... ``` **原因**: Vision 框架识别失败 **可能原因**: - 文件格式不支持 - 图像质量过低 - PDF 加密或损坏 **解决方案**: - 尝试转换为 PNG 格式 - 提高图像分辨率 - 检查 PDF 是否可正常打开 #### 错误 3: 样式分析失败 **错误信息**: ``` Warning: Style analysis failed: ... ``` **原因**: 图像处理失败（非致命错误） **可能原因**: - PIL 无法打开图像 - NumPy 数组操作异常 **解决方案**: - 确认 PIL 版本 >= 12.0.0 - 检查 NumPy 版本 >= 2.2.6 - 忽略警告（不影响文本识别） #### 错误 4: PDF 渲染失败 **错误信息**: ``` ValueError: Could not open PDF file: /path/to/file.pdf ``` **原因**: PDF 文件损坏或加密 **解决方案**: - 确认 PDF 未加密 - 尝试使用其他 PDF 查看器打开 - 转换为图片格式再识别 ### 调试技巧 #### 1. 启用详细日志 ```python import logging logging.basicConfig(level=logging.DEBUG) ``` #### 2. 测试 OCR 独立运行 ```bash uv run src/ocr.py /path/to/image.png ``` #### 3. 检查依赖版本 ```bash uv pip list | grep -E "pyobjc|pillow|numpy" ``` #### 4. 验证 macOS 版本 ```bash sw_vers ``` 预期输出: ProductVersion >= 10.15 ### 性能问题诊断 #### 问题 1: OCR 速度过慢 **诊断步骤**: 1. 检查图像分辨率（降低分辨率可提高速度） 2. 尝试快速模式 (`fast=True`) 3. 检查 CPU 使用率（如果 CPU 占用低，可能是 I/O 瓶颈） #### 问题 2: 内存占用过高 **诊断步骤**: 1. 检查图像尺寸（大图像占用更多内存） 2. 监控进程内存使用 (`top -pid <PID>`) 3. 考虑分批处理大文件 --- ## 测试策略 ### 单元测试当前项目未包含单元测试，建议添加： ```python # tests/test_ocr.py import pytest from src.ocr import recognize_text, recognize_text_with_layout def test_recognize_text(): text = recognize_text('test_assets/sample.png') assert isinstance(text, str) assert len(text) > 0 def test_recognize_text_with_layout(): layout = recognize_text_with_layout('test_assets/sample.png') assert isinstance(layout, list) assert len(layout) > 0 assert 'id' in layout[0] assert 'text' in layout[0] assert 'bbox' in layout[0] ``` ### 集成测试 #### 测试场景 1: 中文文本识别 **测试文件**: `test_assets/chinese_text.png` **预期**: 准确识别中文内容 #### 测试场景 2: 英文文本识别 **测试文件**: `test_assets/english_text.png` **预期**: 准确识别英文内容 #### 测试场景 3: 中英文混合识别 **测试文件**: `test_assets/mixed_text.png` **预期**: 准确识别混合内容 #### 测试场景 4: PDF 多页处理 **测试文件**: `test_assets/multipage.pdf` **预期**: 返回所有页面的文本块，页码正确 #### 测试场景 5: 表格识别 **测试文件**: `test_assets/table.png` **预期**: 区块聚类正确识别表格单元格 #### 测试场景 6: 样式分析 **测试文件**: `test_assets/colored_text.png` **预期**: 正确区分 "print" 和 "emphasized" 类型 ### 性能测试 ```python import time def test_performance(): start = time.time() text = recognize_text('test_assets/large_image.png') duration = time.time() - start assert duration < 10 # 应在 10 秒内完成 ``` ### 手动测试清单 - [ ] 常见图片格式（PNG, JPG, GIF, TIFF） - [ ] PDF 单页 - [ ] PDF 多页 - [ ] 空白图片 - [ ] 大尺寸图片（> 4000x4000） - [ ] 低质量图片 - [ ] 中文文本 - [ ] 英文文本 - [ ] 中英文混合 - [ ] 手写文本 - [ ] 表格 - [ ] 多栏布局 - [ ] 彩色文本 - [ ] 不存在文件 - [ ] 无效文件格式 --- ## 开发指南 ### 环境设置 ```bash # 克隆仓库 git clone https://github.com/wenjiazhu/macos-ocr-mcp.git cd macos-ocr-mcp # 安装依赖 uv pip install -r requirements.txt # 激活虚拟环境 source .venv/bin/activate ``` ### 代码规范 #### 遵循 PEP 8 ```python # 函数命名使用小写和下划线 def recognize_text(image_path: str) -> str: ... # 类命名使用驼峰 class OCREngine: ... # 常量使用大写 MAX_FILE_SIZE = 100 * 1024 * 1024 ``` #### 使用类型提示 ```python from typing import List, Dict, Tuple def cluster_into_blocks(layout_items: List[Dict]) -> List[List[Dict]]: ... ``` #### 添加文档字符串 ```python def recognize_text_with_layout(image_path: str) -> List[Dict]: """ Extract text with layout information from an image or PDF. Args: image_path: Absolute path to the image or PDF file. Returns: List of text blocks with layout and style information. Each block contains: - id: Block identifier - page: Page number - text: Merged text content - bbox: Normalized bounding box - type: Style type ("print" or "emphasized") - lines: Original line information """ ... ``` ### Git 工作流 #### 分支策略 - `main`: 主分支，稳定版本 - `feature/*`: 功能分支 - `bugfix/*`: 修复分支 #### Commit 规范使用 Conventional Commits: ``` feat: 添加新功能 fix: 修复 Bug docs: 更新文档 refactor: 重构代码 test: 添加测试 chore: 其他任务 ``` 示例: ```bash git commit -m "feat: 添加样式分析功能" git commit -m "fix: 修复 PDF 多页页码错误" git commit -m "docs: 更新 API 文档" ``` ### 版本发布 #### 更新版本号编辑 `pyproject.toml`: ```toml [project] version = "0.2.0" ``` #### 创建 Git Tag ```bash git tag -a v0.2.0 -m "Release version 0.2.0" git push origin v0.2.0 ``` #### 更新 Changelog 在 `CLAUDE.md` 或 `CHANGELOG.md` 中记录变更。 ### 调试技巧 #### 使用 Python 调试器 ```python import pdb; pdb.set_trace() # 或 breakpoint() ``` #### 打印调试信息 ```python print(f"Debug: layout_items count = {len(layout_items)}") print(f"Debug: block = {block}") ``` ### 性能分析 ```python import time import cProfile def profile_ocr(): pr = cProfile.Profile() pr.enable() text = recognize_text('large_image.png') pr.disable() pr.print_stats(sort='cumulative') ``` --- ## 附录 ### A. 术语表 | 术语 | 定义 | |-----|------| | MCP | Model Context Protocol，模型上下文协议 | | OCR | Optical Character Recognition，光学字符识别 | | Vision Framework | macOS 的计算机视觉框架 | | BBox | Bounding Box，边界框 | | Union-Find | 并查集算法，用于元素聚类 | | Banding | 分带算法，用于多栏排序 | | FastMCP | MCP 的声明式服务器框架 | | Quartz | macOS 的 2D 图形和 PDF 框架 | | pyobjc | Python 与 Objective-C 的桥接库 | | 归一化坐标 | 坐标值在 [0, 1] 范围内，分辨率无关 | ### B. 参考资料 #### 官方文档 - [MCP 规范](https://modelcontextprotocol.io/) - [FastMCP 文档](https://github.com/jlowin/fastmcp) - [macOS Vision 框架](https://developer.apple.com/documentation/vision) - [pyobjc 文档](https://pyobjc.readthedocs.io/) - [Pillow 文档](https://pillow.readthedocs.io/) #### 相关项目 - [Tesseract OCR](https://github.com/tesseract-ocr/tesseract) - [Claude Desktop](https://claude.ai/download) ### C. 常见问题 (FAQ) #### Q1: 为什么只支持 macOS？ **A**: 因为使用了 macOS 系统级 Vision 框架。跨平台方案需要集成 Tesseract 等第三方 OCR 引擎。 #### Q2: OCR 识别的准确率如何？ **A**: Vision 框架的准确率非常高，对中英文混合文本识别率通常 > 95%。准确率受图像质量、字体、排版影响。 #### Q3: 能否识别手写文本？ **A**: Vision 框架对手写文本有一定支持，但准确率低于印刷体。对于印刷体识别更可靠。 #### Q4: 如何提高识别准确率？ **A**: - 使用高分辨率图像（> 300 DPI） - 提高图像对比度 - 确保图像不倾斜 - 避免复杂的背景 #### Q5: 支持哪些文件格式？ **A**: - 图片: PNG, JPG, JPEG, GIF, TIFF, BMP, WebP（通过 Pillow） - PDF（通过 Quartz） #### Q6: 能否批量处理多个文件？ **A**: 当前仅支持单文件处理。可在外部脚本中循环调用实现批量处理。 #### Q7: 如何处理加密的 PDF？ **A**: 当前不支持加密 PDF。需要先解密后再处理。 #### Q8: 样式分析对所有文件都有效吗？ **A**: 样式分析仅对图片文件有效，PDF 文件会跳过（预期行为）。 ### D. 性能基准测试 #### 测试环境 - **机型**: MacBook Pro (Apple M1 Pro) - **macOS**: 14.5 - **Python**: 3.12 #### 测试结果 | 测试用例 | 文件大小 | 识别时间 | 内存占用 | |---------|---------|---------|---------| | 文本图片 (1920x1080) | 500 KB | 2.3 秒 | 68 MB | | PDF 单页 (A4) | 2 MB | 3.1 秒 | 82 MB | | PDF 10 页 | 20 MB | 28 秒 | 95 MB | | 大尺寸图片 (4000x3000) | 3 MB | 8.5 秒 | 120 MB | ### E. 已知限制 1. **平台限制**: 仅支持 macOS 2. **并发限制**: 暂不支持并行处理 3. **PDF 加密**: 不支持加密 PDF 4. **手写识别**: 手写文本准确率较低 5. **大文件**: 超大文件（> 100 MB）可能内存不足 6. **样式分析**: 可能误判某些彩色印刷体 ### F. 贡献指南欢迎贡献代码、文档或反馈问题！ #### 提交 Issue 请描述： - 问题复现步骤 - 预期行为 vs 实际行为 - 环境信息（macOS 版本、Python 版本） #### 提交 Pull Request 请确保： - 遵循代码规范 - 添加测试（如适用） - 更新文档 - 通过所有现有测试 ### G. 许可证本项目采用 MIT 许可证。详见 LICENSE 文件。 ### H. 联系方式 - 项目主页: https://github.com/w/wenjiazhu/macos-ocr-mcp - 问题反馈: https://github.com/w/wenjiazhu/macos-ocr-mcp/issues --- **文档结束** 本文档详细描述了 macOS OCR MCP Server 的技术架构、设计决策、核心组件、算法实现和扩展方向。如需进一步了解，请参考代码注释和相关资源。

Loading blob content...

Latest Blog Posts

Redis vs ioredis vs valkey-glide
By punkpeye on January 26, 2026.
benchmark
Redis
valkey
Quickstart: Publish an MCP Server to the MCP Registry
By punkpeye on January 24, 2026.
mcp
official reference mirror
Official MCP Registry Server.json Requirements
By punkpeye on January 24, 2026.
mcp
official reference mirror

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/wenjiazhu/macos-ocr-mcp'

If you have feedback or need assistance with the MCP directory API, please join our Discord server

TECHNICAL_ARCHITECTURE.md•54.2 KiB