omniparser-autogui-mcp
(日本语版はこちら)
这是一个使用OmniParser分析屏幕并自动操作 GUI 的MCP 服务器。
在 Windows 上已确认。
许可证说明
这是 MIT 许可证,但不包括子模块和子包。
OmniParser 的存储库是 CC-BY-4.0。
每个 OmniParser 模型都有不同的许可证(参考)。
Related MCP server: Google Toolbox
安装
请执行以下操作:
(除 Windows 外,请使用export而不是set 。)
(如果您希望langchain_example.py工作,请改用uv sync --extra langchain 。)
将其添加到您的
claude_desktop_config.json中:
(将D:\\CLONED_PATH\\omniparser-autogui-mcp替换为您克隆的目录。)
env允许以下附加配置:
OMNI_PARSER_BACKEND_LOAD
如果它不能与其他客户端(例如LibreChat )一起使用,请指定1。TARGET_WINDOW_NAME
如果要指定操作的窗口,请指定窗口名称。
如果未指定,则对整个屏幕进行操作。OMNI_PARSER_SERVER
如果您希望在另一台设备上进行 OmniParser 处理,请指定服务器的地址和端口,例如127.0.0.1:8000。
可以使用uv run omniparserserver启动服务器。SSE_HOST,SSE_PORT
如果指定,通信将通过 SSE 而不是 stdio 进行。SOM_MODEL_PATH、CAPTION_MODEL_NAME、CAPTION_MODEL_PATH、OMNI_PARSER_DEVICE、BOX_TRESHOLD
这些用于 OmniParser 配置。
通常情况下,它们不是必需的。
使用示例
在屏幕浏览器中搜索“MCP 服务器”。
ETC。