omniparser-autogui-mcp

by NON906
Verified

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

Integrations

  • The README mentions 'If you want langchain_example.py to work, uv sync --extra langchain instead', suggesting integration with LangChain.

オムニパーサー-autogui-mcp

日本語版はこちら

OmniParserで画面を解析し、GUIを自動操作するMCPサーバーです。
Windowsで確認済み。

ライセンスに関する注意事項

これは MIT ライセンスですが、サブモジュールとサブパッケージは除きます。
OmniParser のリポジトリは CC-BY-4.0 です。
各 OmniParser モデルには異なるライセンスがあります (参照)。

インストール

  1. 次の手順に従ってください。
git clone --recursive https://github.com/NON906/omniparser-autogui-mcp.git cd omniparser-autogui-mcp uv sync set OCR_LANG=en uv run download_models.py

(Windows 以外の場合は、 setの代わりにexportを使用します。)
( langchain_example.pyを動作させたい場合は、代わりにuv sync --extra langchain実行してください。)

  1. これをclaude_desktop_config.jsonに追加します:
{ "mcpServers": { "omniparser_autogui_mcp": { "command": "uv", "args": [ "--directory", "D:\\CLONED_PATH\\omniparser-autogui-mcp", "run", "omniparser-autogui-mcp" ], "env": { "PYTHONIOENCODING": "utf-8", "OCR_LANG": "en" } } } }

( D:\\CLONED_PATH\\omniparser-autogui-mcpをクローンしたディレクトリに置き換えます。)

env次の追加構成が可能です。

  • OMNI_PARSER_BACKEND_LOAD
    他のクライアント( LibreChatなど)で動作しない場合は、 1指定します。
  • TARGET_WINDOW_NAME
    操作するウィンドウを指定する場合は、ウィンドウ名を指定してください。
    指定しない場合は画面全体で動作します。
  • OMNI_PARSER_SERVER
    OmniParser 処理を別のデバイスで実行する場合は、 127.0.0.1:8000などのサーバーのアドレスとポートを指定します。
    サーバーはuv run omniparserserverで起動できます。
  • SSE_HOSTSSE_PORT
    指定すると、通信はstdioではなくSSE経由で行われます。
  • SOM_MODEL_PATHCAPTION_MODEL_NAMECAPTION_MODEL_PATHOMNI_PARSER_DEVICEBOX_TRESHOLD
    これらは OmniParser 構成用です。
    通常、それらは必要ありません。

使用例

  • 画面上のブラウザで「MCP サーバー」を検索します。

-
security - not tested
A
license - permissive license
-
quality - not tested

オンスクリーンGUIの自動操作。

  1. License notes
    1. Installation
      1. Usage Examples
        ID: 774hewzylm