omniparser-autogui-mcp
(日本語版はこちら)
Este es un servidor MCP que analiza la pantalla con OmniParser y opera automáticamente la GUI.
Confirmado en Windows.
Notas de licencia
Esta es una licencia MIT, pero excluye submódulos y subpaquetes.
El repositorio de OmniParser es CC-BY-4.0.
Cada modelo de OmniParser tiene una licencia diferente ( referencia ).
Instalación
- Por favor haga lo siguiente:
(Además de Windows, utilice export
en lugar de set
).
(Si desea que langchain_example.py
funcione, uv sync --extra langchain
en su lugar).
- Agregue esto a su
claude_desktop_config.json
:
(Reemplace D:\\CLONED_PATH\\omniparser-autogui-mcp
con el directorio que clonó).
env
permite las siguientes configuraciones adicionales:
OMNI_PARSER_BACKEND_LOAD
Si no funciona con otros clientes (como LibreChat ), especifique1
.TARGET_WINDOW_NAME
Si desea especificar la ventana a operar, especifique el nombre de la ventana.
Si no se especifica, opera en toda la pantalla.OMNI_PARSER_SERVER
Si desea que el procesamiento de OmniParser se realice en otro dispositivo, especifique la dirección y el puerto del servidor, como127.0.0.1:8000
.
El servidor se puede iniciar conuv run omniparserserver
.SSE_HOST
,SSE_PORT
Si se especifica, la comunicación se realizará a través de SSE en lugar de stdio.SOM_MODEL_PATH
,CAPTION_MODEL_NAME
,CAPTION_MODEL_PATH
,OMNI_PARSER_DEVICE
,BOX_TRESHOLD
Estos son para la configuración de OmniParser.
Por lo general no son necesarios.
Ejemplos de uso
- Busque "servidor MCP" en el navegador en pantalla.
etc.
This server cannot be installed
hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
Funcionamiento automático de la GUI en pantalla.
Related Resources
Related MCP Servers
- AsecurityFlicenseAqualityEnables browser automation for LLMs on Linux display servers, supporting web interaction, screenshots, and JavaScript execution in a real browser.Last updated -754JavaScript
- AsecurityFlicenseAqualityEnables browser automation using Python scripts, offering operations like taking webpage screenshots, retrieving HTML content, and executing JavaScript.Last updated -418Python
- -securityAlicense-qualityAutomates interactions with SAP GUI using the Model Context Protocol, allowing precise control of SAP transactions through tools like clicking, typing, scrolling, and transaction management.Last updated -9PythonMIT License
- -securityFlicense-qualityA companion desktop app enabling bi-directional interaction between Claude Desktop and visual UI elements, allowing Claude to display, read from, and write to interactive interfaces while processing user events and feedback.Last updated -51TypeScript