omniparser-autogui-mcp
(日本語版はこちら)
Este es un servidor MCP que analiza la pantalla con OmniParser y opera automáticamente la GUI.
Confirmado en Windows.
Notas de licencia
Esta es una licencia MIT, pero excluye submódulos y subpaquetes.
El repositorio de OmniParser es CC-BY-4.0.
Cada modelo de OmniParser tiene una licencia diferente ( referencia ).
Related MCP server: Google Toolbox
Instalación
Por favor haga lo siguiente:
git clone --recursive https://github.com/NON906/omniparser-autogui-mcp.git
cd omniparser-autogui-mcp
uv sync
set OCR_LANG=en
uv run download_models.py(Además de Windows, utilice export en lugar de set ).
(Si desea que langchain_example.py funcione, uv sync --extra langchain en su lugar).
Agregue esto a su
claude_desktop_config.json:
{
"mcpServers": {
"omniparser_autogui_mcp": {
"command": "uv",
"args": [
"--directory",
"D:\\CLONED_PATH\\omniparser-autogui-mcp",
"run",
"omniparser-autogui-mcp"
],
"env": {
"PYTHONIOENCODING": "utf-8",
"OCR_LANG": "en"
}
}
}
}(Reemplace D:\\CLONED_PATH\\omniparser-autogui-mcp con el directorio que clonó).
env permite las siguientes configuraciones adicionales:
OMNI_PARSER_BACKEND_LOAD
Si no funciona con otros clientes (como LibreChat ), especifique1.TARGET_WINDOW_NAME
Si desea especificar la ventana a operar, especifique el nombre de la ventana.
Si no se especifica, opera en toda la pantalla.OMNI_PARSER_SERVER
Si desea que el procesamiento de OmniParser se realice en otro dispositivo, especifique la dirección y el puerto del servidor, como127.0.0.1:8000.
El servidor se puede iniciar conuv run omniparserserver.SSE_HOST,SSE_PORT
Si se especifica, la comunicación se realizará a través de SSE en lugar de stdio.SOM_MODEL_PATH,CAPTION_MODEL_NAME,CAPTION_MODEL_PATH,OMNI_PARSER_DEVICE,BOX_TRESHOLD
Estos son para la configuración de OmniParser.
Por lo general no son necesarios.
Ejemplos de uso
Busque "servidor MCP" en el navegador en pantalla.
etc.