Skip to main content
Glama

omniparser-autogui-mcp

omniparser-autogui-mcp

日本语版はこちら

这是一个使用OmniParser分析屏幕并自动操作 GUI 的MCP 服务器
在 Windows 上已确认。

许可证说明

这是 MIT 许可证,但不包括子模块和子包。
OmniParser 的存储库是 CC-BY-4.0。
每个 OmniParser 模型都有不同的许可证(参考)。

安装

  1. 请执行以下操作:
git clone --recursive https://github.com/NON906/omniparser-autogui-mcp.git cd omniparser-autogui-mcp uv sync set OCR_LANG=en uv run download_models.py

(除 Windows 外,请使用export而不是set 。)
(如果您希望langchain_example.py工作,请改用uv sync --extra langchain 。)

  1. 将其添加到您的claude_desktop_config.json中:
{ "mcpServers": { "omniparser_autogui_mcp": { "command": "uv", "args": [ "--directory", "D:\\CLONED_PATH\\omniparser-autogui-mcp", "run", "omniparser-autogui-mcp" ], "env": { "PYTHONIOENCODING": "utf-8", "OCR_LANG": "en" } } } }

(将D:\\CLONED_PATH\\omniparser-autogui-mcp替换为您克隆的目录。)

env允许以下附加配置:

  • OMNI_PARSER_BACKEND_LOAD
    如果它不能与其他客户端(例如LibreChat )一起使用,请指定1
  • TARGET_WINDOW_NAME
    如果要指定操作的窗口,请指定窗口名称。
    如果未指定,则对整个屏幕进行操作。
  • OMNI_PARSER_SERVER
    如果您希望在另一台设备上进行 OmniParser 处理,请指定服务器的地址和端口,例如127.0.0.1:8000
    可以使用uv run omniparserserver启动服务器。
  • SSE_HOSTSSE_PORT
    如果指定,通信将通过 SSE 而不是 stdio 进行。
  • SOM_MODEL_PATHCAPTION_MODEL_NAMECAPTION_MODEL_PATHOMNI_PARSER_DEVICEBOX_TRESHOLD
    这些用于 OmniParser 配置。
    通常情况下,它们不是必需的。

使用示例

  • 在屏幕浏览器中搜索“MCP 服务器”。

ETC。

-
security - not tested
A
license - permissive license
-
quality - not tested

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

屏幕 GUI 的自动操作。

  1. 许可证说明
    1. 安装
      1. 使用示例

        Related MCP Servers

        • A
          security
          F
          license
          A
          quality
          Enables browser automation for LLMs on Linux display servers, supporting web interaction, screenshots, and JavaScript execution in a real browser.
          Last updated -
          7
          5
          4
          JavaScript
          • Linux
        • A
          security
          F
          license
          A
          quality
          Enables browser automation using Python scripts, offering operations like taking webpage screenshots, retrieving HTML content, and executing JavaScript.
          Last updated -
          4
          18
          Python
          • Linux
        • -
          security
          A
          license
          -
          quality
          Automates interactions with SAP GUI using the Model Context Protocol, allowing precise control of SAP transactions through tools like clicking, typing, scrolling, and transaction management.
          Last updated -
          9
          Python
          MIT License
        • -
          security
          F
          license
          -
          quality
          A companion desktop app enabling bi-directional interaction between Claude Desktop and visual UI elements, allowing Claude to display, read from, and write to interactive interfaces while processing user events and feedback.
          Last updated -
          5
          1
          TypeScript
          • Apple

        View all related MCP servers

        MCP directory API

        We provide all the information about MCP servers via our MCP API.

        curl -X GET 'https://glama.ai/api/mcp/v1/servers/NON906/omniparser-autogui-mcp'

        If you have feedback or need assistance with the MCP directory API, please join our Discord server