uitars-mcp

Servidor MCP que proporciona a los agentes de codificación de IA conexión a tierra de GUI local: la capacidad de encontrar cualquier elemento de la interfaz de usuario en la pantalla y devolver sus coordenadas de píxeles exactas.

Desarrollado por UI-TARS-2B, el modelo de conexión a tierra de GUI de 2B parámetros de ByteDance.

Por qué

El uso de computadora integrado de Claude Code envía cada captura de pantalla a la nube para su análisis. Este servidor MCP ejecuta un modelo de visión local en su lugar:

~1,2 s por búsqueda de elemento (frente a la latencia de ida y vuelta de la nube)
4,1 GB de VRAM (se ejecuta en cualquier GPU moderna)
Totalmente sin conexión: sin claves API, sin dependencia de la nube
90,7 % de precisión en el punto de referencia de texto de escritorio ScreenSpot
Coordenadas de píxeles nativas: devuelve objetivos de clic exactos

Configuración

1. Descargar UI-TARS-2B

# Requires ~4.5GB disk space
huggingface-cli download bytedance-research/UI-TARS-2B-SFT --local-dir ./ui-tars-2b

2. Instalar PyTorch con CUDA

# Install CUDA-enabled PyTorch first (adjust cu126 to your CUDA version)
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu126

3. Instalar uitars-mcp

pip install uitars-mcp
# or from source:
pip install -e .

4. Configurar Claude Code

Agréguelo a su configuración de MCP de Claude Code (~/.claude/settings.json):

{
  "mcpServers": {
    "uitars-mcp": {
      "command": "uitars-mcp",
      "env": {
        "UITARS_MODEL": "/path/to/ui-tars-2b"
      }
    }
  }
}

Si está instalado en un venv, use la ruta completa al ejecutable:

{
  "mcpServers": {
    "uitars-mcp": {
      "command": "/path/to/venv/bin/uitars-mcp",
      "env": {
        "UITARS_MODEL": "/path/to/ui-tars-2b"
      }
    }
  }
}

Herramientas

Herramienta	Qué hace	Latencia
`find_element`	Encuentra un elemento de la interfaz de usuario por descripción, devuelve las coordenadas de clic	~1,2 s
`describe_screen`	Describe todo lo visible en la pantalla	~2 s
`read_screen_text`	OCR: lee todo el texto en la pantalla	~3 s
`check_element`	Comprueba el estado del elemento (habilitado, valor, etc.)	~1 s
`verify_action`	Verifica que una acción funcionó comprobando el estado de la pantalla	~1,5 s
`suggest_action`	Sugiere la siguiente acción para lograr un objetivo	~1,5 s
`benchmark`	Mide la latencia de extremo a extremo	varía

Cómo funciona

Toma una captura de pantalla a través de mss (rápido, multiplataforma)
Cambia el tamaño a 1344 px de ancho (recuento óptimo de tokens de visión)
Ejecuta la inferencia de UI-TARS-2B en la GPU
Convierte las coordenadas normalizadas de 0-1000 del modelo a píxeles de pantalla nativos
Devuelve las coordenadas listas para las herramientas de clic de computer-use

El modelo se carga de forma diferida en la primera llamada (~3 s), luego permanece en VRAM para llamadas posteriores.

Variables de entorno

Variable	Predeterminado	Descripción
`UITARS_MODEL`	(requerido)	Ruta al directorio del modelo UI-TARS-2B

Requisitos

Python 3.10+
GPU NVIDIA con 4,1 GB+ de VRAM
PyTorch habilitado para CUDA
Windows o Linux (macOS no probado)

This server cannot be installed

-

security - not tested

A

license - permissive license

-

quality - not tested

How are these scores calculated?

Resources

GitHub Repository

Need Help?

Related Servers

Unclaimed servers have limited discoverability.

Looking for Admin?

If you are the server author, to access and configure the admin panel.

uitars-mcp

uitars-mcp

Por qué

Configuración

1. Descargar UI-TARS-2B

2. Instalar PyTorch con CUDA

3. Instalar uitars-mcp

4. Configurar Claude Code

Herramientas

Cómo funciona

Variables de entorno

Requisitos

Resources

Looking for Admin?

Latest Blog Posts

MCP directory API