A
securityF
licenseA
qualityEnables browser automation for LLMs on Linux display servers, supporting web interaction, screenshots, and JavaScript execution in a real browser.
Last updated -
7
5
4
JavaScript
(日本语版はこちら)
这是一个使用OmniParser分析屏幕并自动操作 GUI 的MCP 服务器。
在 Windows 上已确认。
这是 MIT 许可证,但不包括子模块和子包。
OmniParser 的存储库是 CC-BY-4.0。
每个 OmniParser 模型都有不同的许可证(参考)。
(除 Windows 外,请使用export
而不是set
。)
(如果您希望langchain_example.py
工作,请改用uv sync --extra langchain
。)
claude_desktop_config.json
中:(将D:\\CLONED_PATH\\omniparser-autogui-mcp
替换为您克隆的目录。)
env
允许以下附加配置:
OMNI_PARSER_BACKEND_LOAD
1
。TARGET_WINDOW_NAME
OMNI_PARSER_SERVER
127.0.0.1:8000
。uv run omniparserserver
启动服务器。SSE_HOST
, SSE_PORT
SOM_MODEL_PATH
、 CAPTION_MODEL_NAME
、 CAPTION_MODEL_PATH
、 OMNI_PARSER_DEVICE
、 BOX_TRESHOLD
ETC。
This server cannot be installed
hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
屏幕 GUI 的自动操作。
We provide all the information about MCP servers via our MCP API.
curl -X GET 'https://glama.ai/api/mcp/v1/servers/NON906/omniparser-autogui-mcp'
If you have feedback or need assistance with the MCP directory API, please join our Discord server