Skip to main content
Glama

uitars-mcp

Servidor MCP que proporciona a los agentes de codificación de IA conexión a tierra de GUI local: la capacidad de encontrar cualquier elemento de la interfaz de usuario en la pantalla y devolver sus coordenadas de píxeles exactas.

Desarrollado por UI-TARS-2B, el modelo de conexión a tierra de GUI de 2B parámetros de ByteDance.

Por qué

El uso de computadora integrado de Claude Code envía cada captura de pantalla a la nube para su análisis. Este servidor MCP ejecuta un modelo de visión local en su lugar:

  • ~1,2 s por búsqueda de elemento (frente a la latencia de ida y vuelta de la nube)

  • 4,1 GB de VRAM (se ejecuta en cualquier GPU moderna)

  • Totalmente sin conexión: sin claves API, sin dependencia de la nube

  • 90,7 % de precisión en el punto de referencia de texto de escritorio ScreenSpot

  • Coordenadas de píxeles nativas: devuelve objetivos de clic exactos

Configuración

1. Descargar UI-TARS-2B

# Requires ~4.5GB disk space
huggingface-cli download bytedance-research/UI-TARS-2B-SFT --local-dir ./ui-tars-2b

2. Instalar PyTorch con CUDA

# Install CUDA-enabled PyTorch first (adjust cu126 to your CUDA version)
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu126

3. Instalar uitars-mcp

pip install uitars-mcp
# or from source:
pip install -e .

4. Configurar Claude Code

Agréguelo a su configuración de MCP de Claude Code (~/.claude/settings.json):

{
  "mcpServers": {
    "uitars-mcp": {
      "command": "uitars-mcp",
      "env": {
        "UITARS_MODEL": "/path/to/ui-tars-2b"
      }
    }
  }
}

Si está instalado en un venv, use la ruta completa al ejecutable:

{
  "mcpServers": {
    "uitars-mcp": {
      "command": "/path/to/venv/bin/uitars-mcp",
      "env": {
        "UITARS_MODEL": "/path/to/ui-tars-2b"
      }
    }
  }
}

Herramientas

Herramienta

Qué hace

Latencia

find_element

Encuentra un elemento de la interfaz de usuario por descripción, devuelve las coordenadas de clic

~1,2 s

describe_screen

Describe todo lo visible en la pantalla

~2 s

read_screen_text

OCR: lee todo el texto en la pantalla

~3 s

check_element

Comprueba el estado del elemento (habilitado, valor, etc.)

~1 s

verify_action

Verifica que una acción funcionó comprobando el estado de la pantalla

~1,5 s

suggest_action

Sugiere la siguiente acción para lograr un objetivo

~1,5 s

benchmark

Mide la latencia de extremo a extremo

varía

Cómo funciona

  1. Toma una captura de pantalla a través de mss (rápido, multiplataforma)

  2. Cambia el tamaño a 1344 px de ancho (recuento óptimo de tokens de visión)

  3. Ejecuta la inferencia de UI-TARS-2B en la GPU

  4. Convierte las coordenadas normalizadas de 0-1000 del modelo a píxeles de pantalla nativos

  5. Devuelve las coordenadas listas para las herramientas de clic de computer-use

El modelo se carga de forma diferida en la primera llamada (~3 s), luego permanece en VRAM para llamadas posteriores.

Variables de entorno

Variable

Predeterminado

Descripción

UITARS_MODEL

(requerido)

Ruta al directorio del modelo UI-TARS-2B

Requisitos

  • Python 3.10+

  • GPU NVIDIA con 4,1 GB+ de VRAM

  • PyTorch habilitado para CUDA

  • Windows o Linux (macOS no probado)

-
security - not tested
A
license - permissive license
-
quality - not tested

Resources

Unclaimed servers have limited discoverability.

Looking for Admin?

If you are the server author, to access and configure the admin panel.

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/Lxsoftroxs/uitars-mcp'

If you have feedback or need assistance with the MCP directory API, please join our Discord server