Provides tools for optical character recognition (OCR) on JPEG images, allowing for the extraction of text in multiple languages with associated confidence scores.
Click on "Install Server".
Wait a few minutes for the server to deploy. Once ready, it will show a "Started" state.
In the chat, type
@followed by the MCP server name and your instructions, e.g., "@OCR MCP Serverextract the text from /Users/taowenxin/Desktop/screenshot.png"
That's it! The server will respond to your query, and you can continue using it as needed.
Here is a step-by-step guide with screenshots.
OCR MCP Server
一个基于 Tesseract.js 的 MCP(Model Context Protocol)服务器,让 Cursor 具备 OCR 图片文字识别能力。
功能特性
支持识别图片中的中文(简体/繁体)、英文等多种语言
支持常见图片格式:PNG、JPG、JPEG、BMP、GIF、WebP
纯 JavaScript 实现,无需额外安装 OCR 软件
返回识别置信度,帮助判断识别质量
安装
在 Cursor 中配置
打开 Cursor 设置:
File>Preferences>Cursor Settings找到
Features>MCP点击
Edit in settings.json或手动添加配置
在 ~/.cursor/mcp.json 或 Cursor 设置中添加:
配置完成后,重启 Cursor 或刷新 MCP 连接。
使用方法
在 Cursor 的 Chat 面板(Agent 模式)中使用:
识别图片文字
或者指定语言:
查看支持的语言
支持的语言
语言代码 | 语言名称 |
chi_sim | 简体中文 |
chi_tra | 繁体中文 |
eng | 英文 |
jpn | 日文 |
kor | 韩文 |
fra | 法文 |
deu | 德文 |
spa | 西班牙文 |
rus | 俄文 |
ara | 阿拉伯文 |
提供的工具
recognize_text
识别图片中的文字内容。
参数:
image_path(必填): 图片文件的本地绝对路径languages(可选): 识别语言代码数组,默认["chi_sim", "eng"]
list_ocr_languages
列出所有支持的 OCR 语言及其代码。
注意事项
首次运行:Tesseract.js 会自动下载语言包(约 10-20MB),需要网络连接
识别质量:识别准确率取决于图片清晰度、字体大小和图片质量
使用模式:建议在 Cursor 的 Agent 模式下使用,以便自动触发工具调用
路径格式:请使用绝对路径,确保路径正确且文件存在
本地测试
技术栈
Model Context Protocol SDK - MCP 官方 SDK
Tesseract.js - 纯 JavaScript OCR 引擎
License
MIT