Skip to main content
Glama

omniparser-autogui-mcp

オムニパーサー-autogui-mcp

日本語版はこちら

OmniParserで画面を解析し、GUIを自動操作するMCPサーバーです。
Windowsで確認済み。

ライセンスに関する注意事項

これは MIT ライセンスですが、サブモジュールとサブパッケージは除きます。
OmniParser のリポジトリは CC-BY-4.0 です。
各 OmniParser モデルには異なるライセンスがあります (参照)。

インストール

  1. 次の手順に従ってください。
git clone --recursive https://github.com/NON906/omniparser-autogui-mcp.git cd omniparser-autogui-mcp uv sync set OCR_LANG=en uv run download_models.py

(Windows 以外の場合は、 setの代わりにexportを使用します。)
( langchain_example.pyを動作させたい場合は、代わりにuv sync --extra langchain実行してください。)

  1. これをclaude_desktop_config.jsonに追加します:
{ "mcpServers": { "omniparser_autogui_mcp": { "command": "uv", "args": [ "--directory", "D:\\CLONED_PATH\\omniparser-autogui-mcp", "run", "omniparser-autogui-mcp" ], "env": { "PYTHONIOENCODING": "utf-8", "OCR_LANG": "en" } } } }

( D:\\CLONED_PATH\\omniparser-autogui-mcpをクローンしたディレクトリに置き換えます。)

env次の追加構成が可能です。

  • OMNI_PARSER_BACKEND_LOAD
    他のクライアント( LibreChatなど)で動作しない場合は、 1指定します。
  • TARGET_WINDOW_NAME
    操作するウィンドウを指定する場合は、ウィンドウ名を指定してください。
    指定しない場合は画面全体で動作します。
  • OMNI_PARSER_SERVER
    OmniParser 処理を別のデバイスで実行する場合は、 127.0.0.1:8000などのサーバーのアドレスとポートを指定します。
    サーバーはuv run omniparserserverで起動できます。
  • SSE_HOSTSSE_PORT
    指定すると、通信はstdioではなくSSE経由で行われます。
  • SOM_MODEL_PATHCAPTION_MODEL_NAMECAPTION_MODEL_PATHOMNI_PARSER_DEVICEBOX_TRESHOLD
    これらは OmniParser 構成用です。
    通常、それらは必要ありません。

使用例

  • 画面上のブラウザで「MCP サーバー」を検索します。

-
security - not tested
A
license - permissive license
-
quality - not tested

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

オンスクリーンGUIの自動操作。

  1. ライセンスに関する注意事項
    1. インストール
      1. 使用例

        Related MCP Servers

        • A
          security
          F
          license
          A
          quality
          Enables browser automation for LLMs on Linux display servers, supporting web interaction, screenshots, and JavaScript execution in a real browser.
          Last updated -
          7
          5
          4
          JavaScript
          • Linux
        • A
          security
          F
          license
          A
          quality
          Enables browser automation using Python scripts, offering operations like taking webpage screenshots, retrieving HTML content, and executing JavaScript.
          Last updated -
          4
          18
          Python
          • Linux
        • -
          security
          A
          license
          -
          quality
          Automates interactions with SAP GUI using the Model Context Protocol, allowing precise control of SAP transactions through tools like clicking, typing, scrolling, and transaction management.
          Last updated -
          9
          Python
          MIT License
        • -
          security
          F
          license
          -
          quality
          A companion desktop app enabling bi-directional interaction between Claude Desktop and visual UI elements, allowing Claude to display, read from, and write to interactive interfaces while processing user events and feedback.
          Last updated -
          5
          1
          TypeScript
          • Apple

        View all related MCP servers

        MCP directory API

        We provide all the information about MCP servers via our MCP API.

        curl -X GET 'https://glama.ai/api/mcp/v1/servers/NON906/omniparser-autogui-mcp'

        If you have feedback or need assistance with the MCP directory API, please join our Discord server