オムニパーサー-autogui-mcp
(日本語版はこちら)
OmniParserで画面を解析し、GUIを自動操作するMCPサーバーです。
Windowsで確認済み。
ライセンスに関する注意事項
これは MIT ライセンスですが、サブモジュールとサブパッケージは除きます。
OmniParser のリポジトリは CC-BY-4.0 です。
各 OmniParser モデルには異なるライセンスがあります (参照)。
インストール
次の手順に従ってください。
(Windows 以外の場合は、 setの代わりにexportを使用します。)
( langchain_example.pyを動作させたい場合は、代わりにuv sync --extra langchain実行してください。)
これを
claude_desktop_config.jsonに追加します:
( D:\\CLONED_PATH\\omniparser-autogui-mcpをクローンしたディレクトリに置き換えます。)
env次の追加構成が可能です。
OMNI_PARSER_BACKEND_LOAD
他のクライアント( LibreChatなど)で動作しない場合は、1指定します。TARGET_WINDOW_NAME
操作するウィンドウを指定する場合は、ウィンドウ名を指定してください。
指定しない場合は画面全体で動作します。OMNI_PARSER_SERVER
OmniParser 処理を別のデバイスで実行する場合は、127.0.0.1:8000などのサーバーのアドレスとポートを指定します。
サーバーはuv run omniparserserverで起動できます。SSE_HOST、SSE_PORT
指定すると、通信はstdioではなくSSE経由で行われます。SOM_MODEL_PATH、CAPTION_MODEL_NAME、CAPTION_MODEL_PATH、OMNI_PARSER_DEVICE、BOX_TRESHOLD
これらは OmniParser 構成用です。
通常、それらは必要ありません。
使用例
画面上のブラウザで「MCP サーバー」を検索します。
等
This server cannot be installed
hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
オンスクリーンGUIの自動操作。
Related Resources
Related MCP Servers
- MIT License