MCP 桌面自动化
一个模型上下文协议 (LLM) 服务器,使用 RobotJS 和屏幕截图功能提供桌面自动化功能。该服务器使 LLM 能够控制鼠标移动、键盘输入以及捕获桌面环境的屏幕截图。
使用桌面自动化服务器的配置
以下是如何配置 Claude Desktop 以使用 MCP 桌面自动化服务器:
NPX
权限
此服务器需要系统级权限才能:
- 截取屏幕截图
- 控制鼠标移动和点击
- 模拟键盘输入
首次使用此服务器运行 Claude Desktop 时,您可能需要在操作系统的安全设置中授予这些权限。
限制
虽然该服务器可与各种 MCP 客户端配合使用,但它主要通过 Claude Desktop 进行测试。
重要提示:当前实现的响应大小限制为 1MB。对于屏幕截图,这意味着:
- 高分辨率截图可能会超出此限制并失败
- 测试表明 800x600 分辨率可靠
- 如果遇到问题,请考虑降低屏幕分辨率或捕获特定的屏幕区域
要求
- Node.js(>=14.x)
成分
工具
- 获取屏幕尺寸
- 获取屏幕尺寸
- 无需输入参数
- 屏幕截图
- 捕获当前屏幕内容
- 无需输入参数
- 键盘按下
- 按下键盘上的某个键或组合键
- 输入:
key
(字符串,必需):要按下的键(例如,“enter”,“a”,“control”)modifiers
(字符串数组,可选):按下按键时需要按住的修饰键。可能的值包括:“control”、“shift”、“alt”、“command”
- 键盘类型
- 在当前光标位置输入文本
- 输入:
text
(字符串,必需):要输入的文本
- 鼠标点击
- 执行鼠标点击
- 输入:
button
(字符串,可选,默认值:“left”):鼠标点击按钮。可能的值:“left”、“right”、“middle”double
(布尔值,可选,默认值:false):是否执行双击
- 鼠标移动
- 将鼠标移动到指定坐标
- 输入:
x
(数字,必需):X 坐标y
(数字,必需):Y 坐标
资源
服务器提供对屏幕截图的访问:
- 截图列表(
screenshot://list
)- 按名称列出所有可用的屏幕截图
- 屏幕截图内容(
screenshot://{id}
)- 截图的 PNG 图像
- 可通过屏幕截图 ID 访问(基于时间戳的命名)
主要特点
- 桌面鼠标控制
- 键盘输入模拟
- 屏幕尺寸检测
- 截图功能
- 简单的 JSON 响应格式
执照
此 MCP 服务器采用 MIT 许可证。这意味着您可以自由使用、修改和分发该软件,但须遵守 MIT 许可证的条款和条件。更多详情,请参阅项目仓库中的 LICENSE 文件。
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
模型上下文协议服务器使用 RobotJS 和屏幕截图功能提供桌面自动化功能,使 LLM 能够控制鼠标移动、键盘输入并捕获桌面环境的屏幕截图。
Related MCP Servers
- -securityAlicense-qualityA Model Context Protocol server that provides browser automation capabilities using Playwright, enabling LLMs to interact with web pages, take screenshots, and execute JavaScript in a real browser environment.Last updated -3PythonApache 2.0
- -securityAlicense-qualityA Model Context Protocol server that enables LLMs to automate web browsers using Puppeteer, allowing navigation, screenshots, form filling, and JavaScript execution in a real browser environment.Last updated -JavaScriptMIT License
- -securityFlicense-qualityA Model Context Protocol server that provides browser automation capabilities using BrowserCat's cloud browser service. This server enables LLMs to interact with web pages, take screenshots, and execute JavaScript in a real browser environment without needing to install browsers locally.Last updated -39
- -securityFlicense-qualityA Model Context Protocol server that provides browser automation capabilities using Puppeteer, enabling LLMs to interact with web pages, take screenshots, and execute JavaScript in a real browser environment.Last updated -15,502JavaScript