omniparser-autogui-mcp

by NON906
Verified
# omniparser-autogui-mcp これは[OmniParser](https://github.com/microsoft/OmniParser)で画面を解析し、GUIを自動で操作させるための[MCP server](https://modelcontextprotocol.io/introduction)です。 Windowsで動作確認しております. ## ライセンスについて これはMIT licenseですが、サブモジュールとパッケージはそれらのライセンスに従います。 OmniParserのリポジトリ(サブモジュール)はCC-BY-4.0です。 OmniParserのモデルはそれぞれ異なるライセンスに従います([参照](https://github.com/microsoft/OmniParser?tab=readme-ov-file#model-weights-license)). ## インストール方法 1. 以下を実行してください。 ``` git clone --recursive https://github.com/NON906/omniparser-autogui-mcp.git cd omniparser-autogui-mcp uv sync uv run download_models.py ``` (``langchain_example.py``を動作させたい場合は代わりに``uv sync --extra langchain``を実行してください) 2. ``claude_desktop_config.json``に以下を追加してください。 ```claude_desktop_config.json { "mcpServers": { "omniparser_autogui_mcp": { "command": "uv", "args": [ "--directory", "D:\\CLONED_PATH\\omniparser-autogui-mcp", "run", "omniparser-autogui-mcp" ], "env": { "PYTHONIOENCODING": "utf-8" } } } } ``` (``D:\\CLONED_PATH\\omniparser-autogui-mcp``はクローンしたディレクトリに置き換えてください) ``env``には追加で以下の設定が出来ます。 - ``OMNI_PARSER_BACKEND_LOAD`` 他のクライアント([LibreChat](https://github.com/danny-avila/LibreChat)など)で動作しない場合、``1``と指定してください - ``TARGET_WINDOW_NAME`` 操作させるウィンドウを指定したい場合、ウィンドウ名を指定してください 指定しない場合、画面全体に対して動作します - ``OMNI_PARSER_SERVER`` 他のデバイスでOmniParserの処理を行う場合、``127.0.0.1:8000``のようにサーバーのアドレスとポートを指定してください サーバーは``uv run omniparserserver``で開始できます - ``SSE_HOST``, ``SSE_PORT`` 指定するとstdioではなくSSEで通信を行うようになります - ``SOM_MODEL_PATH``, ``CAPTION_MODEL_NAME``, ``CAPTION_MODEL_PATH``, ``OMNI_PARSER_DEVICE``, ``BOX_TRESHOLD`` OmniParserの設定用です 通常は不要です ## プロンプト例 - 画面を確認し、ブラウザから「MCPサーバー」と入力して検索してください など