MCP 桌面自动化
一个模型上下文协议 (LLM) 服务器,使用 RobotJS 和屏幕截图功能提供桌面自动化功能。该服务器使 LLM 能够控制鼠标移动、键盘输入以及捕获桌面环境的屏幕截图。
使用桌面自动化服务器的配置
以下是如何配置 Claude Desktop 以使用 MCP 桌面自动化服务器:
NPX
权限
此服务器需要系统级权限才能:
截取屏幕截图
控制鼠标移动和点击
模拟键盘输入
首次使用此服务器运行 Claude Desktop 时,您可能需要在操作系统的安全设置中授予这些权限。
限制
虽然该服务器可与各种 MCP 客户端配合使用,但它主要通过 Claude Desktop 进行测试。
重要提示:当前实现的响应大小限制为 1MB。对于屏幕截图,这意味着:
高分辨率截图可能会超出此限制并失败
测试表明 800x600 分辨率可靠
如果遇到问题,请考虑降低屏幕分辨率或捕获特定的屏幕区域
要求
Node.js(>=14.x)
成分
工具
获取屏幕尺寸
获取屏幕尺寸
无需输入参数
屏幕截图
捕获当前屏幕内容
无需输入参数
键盘按下
按下键盘上的某个键或组合键
输入:
key(字符串,必需):要按下的键(例如,“enter”,“a”,“control”)modifiers(字符串数组,可选):按下按键时需要按住的修饰键。可能的值包括:“control”、“shift”、“alt”、“command”
键盘类型
在当前光标位置输入文本
输入:
text(字符串,必需):要输入的文本
鼠标点击
执行鼠标点击
输入:
button(字符串,可选,默认值:“left”):鼠标点击按钮。可能的值:“left”、“right”、“middle”double(布尔值,可选,默认值:false):是否执行双击
鼠标移动
将鼠标移动到指定坐标
输入:
x(数字,必需):X 坐标y(数字,必需):Y 坐标
资源
服务器提供对屏幕截图的访问:
截图列表(
screenshot://list)按名称列出所有可用的屏幕截图
屏幕截图内容(
screenshot://{id})截图的 PNG 图像
可通过屏幕截图 ID 访问(基于时间戳的命名)
主要特点
桌面鼠标控制
键盘输入模拟
屏幕尺寸检测
截图功能
简单的 JSON 响应格式
执照
此 MCP 服务器采用 MIT 许可证。这意味着您可以自由使用、修改和分发该软件,但须遵守 MIT 许可证的条款和条件。更多详情,请参阅项目仓库中的 LICENSE 文件。
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
模型上下文协议服务器使用 RobotJS 和屏幕截图功能提供桌面自动化功能,使 LLM 能够控制鼠标移动、键盘输入并捕获桌面环境的屏幕截图。
Related MCP Servers
- -security-license-qualityA Model Context Protocol server that provides browser automation capabilities using Playwright, enabling LLMs to interact with web pages, take screenshots, and execute JavaScript in a real browser environment.Last updated -16Apache 2.0
- -security-license-qualityA Model Context Protocol server that provides AI vision capabilities for analyzing UI screenshots, offering tools for screen analysis, file operations, and UI/UX report generation.
- -security-license-qualityA Model Context Protocol server that wraps AutoIt functionality, enabling LLMs to automate Windows desktop tasks including mouse/keyboard operations, window management, and UI control interactions.Last updated -92MIT License
- Asecurity-licenseAqualityA Model Context Protocol server that enables LLMs to interact with web pages, take screenshots, generate test code, scrape web pages, and execute JavaScript in a real browser environment.Last updated -29913MIT License