mcp-test-utils
MCP Test Utils
100% AI 代码 · 人工审核
用于自动化桌面 UI 测试的 MCP 服务器。单个二进制文件 —— 无需运行时、无依赖、无需安装。
仅限 Windows x64。 计划支持 macOS 和 Linux。
为 AI 智能体提供“眼睛”和“双手”:截图、窗口管理、鼠标、键盘、UI 自动化、OCR、文件搜索。
为什么使用它
AI 智能体可以触发应用程序中的操作,但无法“看到”屏幕。此服务器弥补了这一差距:
Agent triggers action → takes screenshot → sees the result →
switches window → clicks a button → verifies → writes report完全自主,无需用户参与。
演示
10 个任务。一次录制。 在 YouTube 上观看 →

MCP Test Utils 与 Anthropic Computer Use 的对比
Claude Cowork 现在内置了 Computer Use —— Claude 可以截取屏幕截图并直观地点击界面。它无需任何设置即可工作。MCP Test Utils 采用了不同的方法:它不是通过截图猜测点击位置,而是通过 Windows API 读取实际的 UI 结构。
MCP Test Utils | Computer Use | |
点击精度 | 精确 — UI Automation API | 基于截图的视觉估算 |
速度与 Token 成本 | 快速,低成本 — 文本响应 | 较慢,成本高 — 每步都需要图像 |
UI 结构 | 完整树:角色、状态、坐标 | 不可用 |
OCR | 单词级坐标,多语言 | 不可用(仅限模型视觉) |
窗口管理 | 基于 API,窗口相对坐标 | 视觉导航 |
文件搜索 | 内置 Ripgrep 引擎 | 不可用 |
会话日志 | JSONL + 截图 | 不可用 |
视觉分析 | ✅ 同 Claude 模型,全分辨率 1:1 | ✅ 同 Claude 模型 |
设置 | 下载二进制文件,添加到配置 | 内置,一键开关 |
移动端 / 调度 | — | ✅ 手机端任务 |
跨平台 | Windows (计划支持 macOS/Linux) | macOS + Windows |
MCP Test Utils 更快、更精确,且单次操作成本更低。Computer Use 更易于上手且支持跨平台。它们互为补充。
平台
平台 | 状态 |
Windows x64 | ✅ 完全支持 |
macOS arm64 | ⏳ 计划中 |
Linux x64 | ⏳ 计划中 |
工具 (19)
视觉
工具 | 描述 |
| 截取整个桌面,支持配置质量 |
| 截取特定窗口(屏幕或窗口捕获模式) |
| 对整个屏幕进行 OCR (Windows.Media.Ocr) |
| 对屏幕区域进行 OCR,提供精确的单词坐标 |
窗口管理
工具 | 描述 |
| 列出窗口(包含 id、标题、应用、位置、大小、最小化、焦点状态) |
| 将窗口置于前台,如果已最小化则恢复 |
输入
工具 | 描述 |
| 在屏幕或窗口相对坐标处点击(左键/右键/中键) |
| 将光标移动到指定点 |
| 从 A 点拖动到 B 点 |
| 滚动鼠标滚轮 |
| 输入文本(支持完整 Unicode — 拉丁文、西里尔文、CJK、表情符号) |
| 按下按键(Enter、Tab、F1–F12、方向键等) |
| 组合键(Ctrl+S、Alt+F4、Ctrl+Shift+P 等) |
结构化 UI 访问
工具 | 描述 |
| UI 自动化树 — 按钮、字段、菜单及其精确坐标 |
文件搜索
工具 | 描述 |
| 在允许的目录内搜索文本或正则表达式(类似于 VS Code 的“在文件中查找”) |
| 按名称模式 (glob) 查找文件和目录,类似于“转到文件” |
智能体指南
工具 | 描述 |
| 为 LLM 智能体提供的紧凑工作流指南 — 精确点击、坐标元数据、质量提示 |
会话日志
工具 | 描述 |
| 开始将工具调用记录到 JSONL + 截图(需手动开启) |
| 停止记录,获取会话统计信息 |
安装
从 Releases 下载二进制文件。
将其添加到您的 MCP 客户端配置中。以下示例适用于 Claude Desktop — 其他客户端请参考其文档。
Claude Desktop: %APPDATA%\Claude\claude_desktop_config.json
{
"mcpServers": {
"test-utils": {
"command": "D:\\path\\to\\mcp-test-utils.exe"
}
}
}重启 Claude Desktop。
在聊天中尝试:“Take a screenshot” — 智能体将返回您的桌面图像。
启用日志记录和文件搜索(可选)
{
"mcpServers": {
"test-utils": {
"command": "D:\\path\\to\\mcp-test-utils.exe",
"env": {
"MCP_LOG_DIR": "D:\\path\\to\\logs",
"MCP_LOG_MAX_MB": "500",
"MCP_LOG_RETAIN_DAYS": "30",
"MCP_SEARCH_DIRS": "D:\\Projects\\app1;D:\\Projects\\app2"
}
}
}
}质量预设
截图支持可配置的质量,以平衡细节和 Token 成本:
预设 | 缩放 | 格式 | 使用场景 |
| 100% | JPEG q90 | 最大细节 |
| 50% | JPEG q70 | 平衡(默认) |
| 50% | PNG | 需要 PNG 时 |
| 25% | 灰度 | 最低 Token 成本 |
| 10–100% | JPEG / PNG / 灰度 | 完全控制 |
环境变量
变量 | 描述 | 默认值 |
| 日志会话路径。若未设置,日志工具将被隐藏 | — |
| 会话大小限制(超出时发出警告) |
|
| 自动删除 N 天前的会话。设为 |
|
|
| — |
工作原理
MCP Test Utils 是一个通过 stdin/stdout 通信的 JSON-RPC 2.0 服务器。任何兼容 MCP 的客户端都可以启动该二进制文件,发送工具调用,并接收结构化响应(文本、base64 图像)。已在 Claude Desktop 上测试。
该服务器直接使用原生 Windows API — Win32 GDI 用于截图,SendInput 用于鼠标和键盘,UI Automation COM API 用于元素检查,WinRT Windows.Media.Ocr 用于文本识别。文件搜索使用 ripgrep 引擎 (grep-regex, grep-searcher, ignore) — 跨平台,无外部依赖。无需 PowerShell,无需外部工具,无需网络访问。
使用场景
自动化 QA — 智能体导航应用、点击流程、在每一步截屏、编写测试报告
桌面自动化 — 填写表单、在窗口间复制数据、运行工作流
无障碍审计 — 扫描 UI 自动化树以查找缺失的标签或角色
视觉回归测试 — 跨版本截图对比
数据提取 — 从未公开 API 的应用程序中 OCR 提取文本
代码搜索 — 在不离开智能体对话的情况下跨多个项目查找模式
安全性
仅响应来自 MCP 客户端的请求
不打开任何网络端口
不向磁盘写入任何内容(除非手动开启日志记录)
不向外部发送任何数据
截图会捕获整个屏幕 — 请确保没有敏感信息可见
文件搜索已沙盒化 — 仅可访问
MCP_SEARCH_DIRS中的目录
支持我们
免费且无限制。如果您觉得它有用 — jeenyjai.github.io
许可证
版权所有 2026 JeenyJAI。保留所有权利。
🚀 由 Claude 创建
Latest Blog Posts
MCP directory API
We provide all the information about MCP servers via our MCP API.
curl -X GET 'https://glama.ai/api/mcp/v1/servers/JeenyJAI/mcp-test-utils'
If you have feedback or need assistance with the MCP directory API, please join our Discord server