Skip to main content
Glama

omniparser-autogui-mcp

옴니파서-오토GUI-MCP

일본어版はちな

OmniParser를 통해 화면을 분석하고 GUI를 자동으로 구동하는 MCP 서버 입니다.
Windows에서는 확인되었습니다.

라이센스 참고 사항

이는 MIT 라이센스이지만 하위 모듈과 하위 패키지는 제외됩니다.
OmniParser의 저장소는 CC-BY-4.0입니다.
각 OmniParser 모델에는 다른 라이선스가 있습니다( 참조 ).

설치

  1. 다음을 수행하세요.

지엑스피1

(Windows가 아닌 경우 set 대신 export 사용하세요.)
( langchain_example.py 작동시키려면 대신 uv sync --extra langchain 사용하세요.)

  1. claude_desktop_config.json 에 다음을 추가하세요:
{ "mcpServers": { "omniparser_autogui_mcp": { "command": "uv", "args": [ "--directory", "D:\\CLONED_PATH\\omniparser-autogui-mcp", "run", "omniparser-autogui-mcp" ], "env": { "PYTHONIOENCODING": "utf-8", "OCR_LANG": "en" } } } }

( D:\\CLONED_PATH\\omniparser-autogui-mcp 복제한 디렉토리로 바꾸세요.)

env 다음과 같은 추가 구성을 허용합니다.

  • OMNI_PARSER_BACKEND_LOAD
    다른 클라이언트(예: LibreChat )에서 작동하지 않는 경우 1 지정하세요.
  • TARGET_WINDOW_NAME
    동작할 창을 지정하고 싶으시면 창 이름을 지정해 주세요.
    지정하지 않으면 전체 화면에서 작동합니다.
  • OMNI_PARSER_SERVER
    OmniParser 처리를 다른 장치에서 수행하려면 127.0.0.1:8000 과 같이 서버의 주소와 포트를 지정합니다.
    서버는 uv run omniparserserver 로 시작할 수 있습니다.
  • SSE_HOST , SSE_PORT
    지정된 경우, 통신은 stdio 대신 SSE를 통해 이루어집니다.
  • SOM_MODEL_PATH , CAPTION_MODEL_NAME , CAPTION_MODEL_PATH , OMNI_PARSER_DEVICE , BOX_TRESHOLD
    이는 OmniParser 구성을 위한 것입니다.
    일반적으로 필요하지 않습니다.

사용 예

  • 화면 브라우저에서 "MCP 서버"를 검색하세요.

등.

-
security - not tested
A
license - permissive license
-
quality - not tested

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

화면 GUI의 자동 작동.

  1. 라이센스 참고 사항
    1. 설치
      1. 사용 예

        Related MCP Servers

        • A
          security
          F
          license
          A
          quality
          Enables browser automation for LLMs on Linux display servers, supporting web interaction, screenshots, and JavaScript execution in a real browser.
          Last updated -
          7
          5
          4
          JavaScript
          • Linux
        • A
          security
          F
          license
          A
          quality
          Enables browser automation using Python scripts, offering operations like taking webpage screenshots, retrieving HTML content, and executing JavaScript.
          Last updated -
          4
          18
          Python
          • Linux
        • -
          security
          A
          license
          -
          quality
          Automates interactions with SAP GUI using the Model Context Protocol, allowing precise control of SAP transactions through tools like clicking, typing, scrolling, and transaction management.
          Last updated -
          9
          Python
          MIT License
        • -
          security
          F
          license
          -
          quality
          A companion desktop app enabling bi-directional interaction between Claude Desktop and visual UI elements, allowing Claude to display, read from, and write to interactive interfaces while processing user events and feedback.
          Last updated -
          5
          1
          TypeScript
          • Apple

        View all related MCP servers

        MCP directory API

        We provide all the information about MCP servers via our MCP API.

        curl -X GET 'https://glama.ai/api/mcp/v1/servers/NON906/omniparser-autogui-mcp'

        If you have feedback or need assistance with the MCP directory API, please join our Discord server