omniparser-autogui-mcp
(日本語版はこちら)
Este es un servidor MCP que analiza la pantalla con OmniParser y opera automáticamente la GUI.
Confirmado en Windows.
Notas de licencia
Esta es una licencia MIT, pero excluye submódulos y subpaquetes.
El repositorio de OmniParser es CC-BY-4.0.
Cada modelo de OmniParser tiene una licencia diferente ( referencia ).
Related MCP server: Google Toolbox
Instalación
Por favor haga lo siguiente:
(Además de Windows, utilice export en lugar de set ).
(Si desea que langchain_example.py funcione, uv sync --extra langchain en su lugar).
Agregue esto a su
claude_desktop_config.json:
(Reemplace D:\\CLONED_PATH\\omniparser-autogui-mcp con el directorio que clonó).
env permite las siguientes configuraciones adicionales:
OMNI_PARSER_BACKEND_LOAD
Si no funciona con otros clientes (como LibreChat ), especifique1.TARGET_WINDOW_NAME
Si desea especificar la ventana a operar, especifique el nombre de la ventana.
Si no se especifica, opera en toda la pantalla.OMNI_PARSER_SERVER
Si desea que el procesamiento de OmniParser se realice en otro dispositivo, especifique la dirección y el puerto del servidor, como127.0.0.1:8000.
El servidor se puede iniciar conuv run omniparserserver.SSE_HOST,SSE_PORT
Si se especifica, la comunicación se realizará a través de SSE en lugar de stdio.SOM_MODEL_PATH,CAPTION_MODEL_NAME,CAPTION_MODEL_PATH,OMNI_PARSER_DEVICE,BOX_TRESHOLD
Estos son para la configuración de OmniParser.
Por lo general no son necesarios.
Ejemplos de uso
Busque "servidor MCP" en el navegador en pantalla.
etc.