MCP Desktop Automation

Integrations

  • Serves as the runtime environment for the MCP server, with Node.js version 14.x or higher required for operation.

MCP 桌面自动化

一个模型上下文协议 (LLM) 服务器,使用 RobotJS 和屏幕截图功能提供桌面自动化功能。该服务器使 LLM 能够控制鼠标移动、键盘输入以及捕获桌面环境的屏幕截图。

使用桌面自动化服务器的配置

以下是如何配置 Claude Desktop 以使用 MCP 桌面自动化服务器:

NPX

{ "mcpServers": { "desktop-automation": { "command": "npx", "args": ["-y", "mcp-desktop-automation"] } } }

权限

此服务器需要系统级权限才能:

  • 截取屏幕截图
  • 控制鼠标移动和点击
  • 模拟键盘输入

首次使用此服务器运行 Claude Desktop 时,您可能需要在操作系统的安全设置中授予这些权限。

限制

虽然该服务器可与各种 MCP 客户端配合使用,但它主要通过 Claude Desktop 进行测试。

重要提示:当前实现的响应大小限制为 1MB。对于屏幕截图,这意味着:

  • 高分辨率截图可能会超出此限制并失败
  • 测试表明 800x600 分辨率可靠
  • 如果遇到问题,请考虑降低屏幕分辨率或捕获特定的屏幕区域

要求

  • Node.js(>=14.x)

成分

工具

  • 获取屏幕尺寸
    • 获取屏幕尺寸
    • 无需输入参数
  • 屏幕截图
    • 捕获当前屏幕内容
    • 无需输入参数
  • 键盘按下
    • 按下键盘上的某个键或组合键
    • 输入:
      • key (字符串,必需):要按下的键(例如,“enter”,“a”,“control”)
      • modifiers (字符串数组,可选):按下按键时需要按住的修饰键。可能的值包括:“control”、“shift”、“alt”、“command”
  • 键盘类型
    • 在当前光标位置输入文本
    • 输入: text (字符串,必需):要输入的文本
  • 鼠标点击
    • 执行鼠标点击
    • 输入:
      • button (字符串,可选,默认值:“left”):鼠标点击按钮。可能的值:“left”、“right”、“middle”
      • double (布尔值,可选,默认值:false):是否执行双击
  • 鼠标移动
    • 将鼠标移动到指定坐标
    • 输入:
      • x (数字,必需):X 坐标
      • y (数字,必需):Y 坐标

资源

服务器提供对屏幕截图的访问:

  1. 截图列表screenshot://list
    • 按名称列出所有可用的屏幕截图
  2. 屏幕截图内容screenshot://{id}
    • 截图的 PNG 图像
    • 可通过屏幕截图 ID 访问(基于时间戳的命名)

主要特点

  • 桌面鼠标控制
  • 键盘输入模拟
  • 屏幕尺寸检测
  • 截图功能
  • 简单的 JSON 响应格式

执照

此 MCP 服务器采用 MIT 许可证。这意味着您可以自由使用、修改和分发该软件,但须遵守 MIT 许可证的条款和条件。更多详情,请参阅项目仓库中的 LICENSE 文件。

-
security - not tested
F
license - not found
-
quality - not tested

模型上下文协议服务器使用 RobotJS 和屏幕截图功能提供桌面自动化功能,使 LLM 能够控制鼠标移动、键盘输入并捕获桌面环境的屏幕截图。

  1. Configuration to use Desktop Automation Server
    1. NPX
    2. Permissions
  2. Limitations
    1. Requirements
      1. Components
        1. Tools
        2. Resources
      2. Key Features
        1. License
          ID: 4x77c4i3f0