计算机控制MCP
MCP 服务器使用 PyAutoGUI、RapidOCR 和 ONNXRuntime 提供计算机控制功能,例如鼠标、键盘、OCR 等。类似于 Anthropic 的“computer-use”。零外部依赖。
仅在 Windows 上测试。其他平台也应该可以运行。

快速使用(使用uvx设置 MCP)
或者使用pip全局安装:
然后使用以下命令运行服务器:
特征
控制鼠标移动和点击
在当前光标位置输入文本
截取整个屏幕或特定窗口的屏幕截图,并可选择保存到下载目录
使用 OCR(光学字符识别)从屏幕截图中提取文本
列出并激活窗口
按键盘键
拖放操作
可用工具
鼠标控制
click_screen(x: int, y: int):点击指定的屏幕坐标move_mouse(x: int, y: int):将鼠标光标移动到指定坐标drag_mouse(from_x: int, from_y: int, to_x: int, to_y: int, duration: float = 0.5):将鼠标从一个位置拖动到另一个位置
键盘控制
type_text(text: str):在当前光标位置输入指定的文本press_key(key: str):按下指定的键盘键
屏幕和窗口管理
take_screenshot(title_pattern: str = None, use_regex: bool = False, threshold: int = 60, with_ocr_text_and_coords: bool = False, scale_percent_for_ocr: int = 100, save_to_downloads: bool = False):使用可选 OCR 捕获屏幕或窗口get_screen_size():获取当前屏幕分辨率list_windows():列出所有打开的窗口activate_window(title_pattern: str, use_regex: bool = False, threshold: int = 60):将指定窗口置于前台
发展
设置开发环境
运行测试
API 参考
有关可用函数和类的详细信息,请参阅API 参考。
执照
麻省理工学院
如需更多信息或帮助
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
MCP 服务器通过统一的 API 提供计算机控制功能,包括鼠标移动、键盘操作、使用 OCR 的屏幕截图以及窗口管理。
Related MCP Servers
- -security-license-qualityAn MCP server that bridges AI agents with GUI automation capabilities, allowing them to control mouse, keyboard, windows, and take screenshots to interact with desktop applications.Last updated -10MIT License
- -security-license-qualityProvides automated GUI testing and control capabilities through an MCP server that enables mouse movements, keyboard input, screen captures, and image recognition across Windows, macOS, and Linux.Last updated -27MIT License
- AsecurityAlicenseAqualityAn MCP server providing web development tools such as screen capturing capabilities that let AI agents take and work with screenshots of the user's screen.Last updated -24515MIT License
- -security-license-qualityAn MCP server that allows users to interact with their browser through natural language commands, enabling actions like getting page content as markdown, modifying page styles, and searching browser history.Last updated -1