uitars-mcp
uitars-mcp
Servidor MCP que proporciona a los agentes de codificación de IA conexión a tierra de GUI local: la capacidad de encontrar cualquier elemento de la interfaz de usuario en la pantalla y devolver sus coordenadas de píxeles exactas.
Desarrollado por UI-TARS-2B, el modelo de conexión a tierra de GUI de 2B parámetros de ByteDance.
Por qué
El uso de computadora integrado de Claude Code envía cada captura de pantalla a la nube para su análisis. Este servidor MCP ejecuta un modelo de visión local en su lugar:
~1,2 s por búsqueda de elemento (frente a la latencia de ida y vuelta de la nube)
4,1 GB de VRAM (se ejecuta en cualquier GPU moderna)
Totalmente sin conexión: sin claves API, sin dependencia de la nube
90,7 % de precisión en el punto de referencia de texto de escritorio ScreenSpot
Coordenadas de píxeles nativas: devuelve objetivos de clic exactos
Configuración
1. Descargar UI-TARS-2B
# Requires ~4.5GB disk space
huggingface-cli download bytedance-research/UI-TARS-2B-SFT --local-dir ./ui-tars-2b2. Instalar PyTorch con CUDA
# Install CUDA-enabled PyTorch first (adjust cu126 to your CUDA version)
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu1263. Instalar uitars-mcp
pip install uitars-mcp
# or from source:
pip install -e .4. Configurar Claude Code
Agréguelo a su configuración de MCP de Claude Code (~/.claude/settings.json):
{
"mcpServers": {
"uitars-mcp": {
"command": "uitars-mcp",
"env": {
"UITARS_MODEL": "/path/to/ui-tars-2b"
}
}
}
}Si está instalado en un venv, use la ruta completa al ejecutable:
{
"mcpServers": {
"uitars-mcp": {
"command": "/path/to/venv/bin/uitars-mcp",
"env": {
"UITARS_MODEL": "/path/to/ui-tars-2b"
}
}
}
}Herramientas
Herramienta | Qué hace | Latencia |
| Encuentra un elemento de la interfaz de usuario por descripción, devuelve las coordenadas de clic | ~1,2 s |
| Describe todo lo visible en la pantalla | ~2 s |
| OCR: lee todo el texto en la pantalla | ~3 s |
| Comprueba el estado del elemento (habilitado, valor, etc.) | ~1 s |
| Verifica que una acción funcionó comprobando el estado de la pantalla | ~1,5 s |
| Sugiere la siguiente acción para lograr un objetivo | ~1,5 s |
| Mide la latencia de extremo a extremo | varía |
Cómo funciona
Toma una captura de pantalla a través de
mss(rápido, multiplataforma)Cambia el tamaño a 1344 px de ancho (recuento óptimo de tokens de visión)
Ejecuta la inferencia de UI-TARS-2B en la GPU
Convierte las coordenadas normalizadas de 0-1000 del modelo a píxeles de pantalla nativos
Devuelve las coordenadas listas para las herramientas de clic de
computer-use
El modelo se carga de forma diferida en la primera llamada (~3 s), luego permanece en VRAM para llamadas posteriores.
Variables de entorno
Variable | Predeterminado | Descripción |
| (requerido) | Ruta al directorio del modelo UI-TARS-2B |
Requisitos
Python 3.10+
GPU NVIDIA con 4,1 GB+ de VRAM
PyTorch habilitado para CUDA
Windows o Linux (macOS no probado)
This server cannot be installed
Resources
Unclaimed servers have limited discoverability.
Looking for Admin?
If you are the server author, to access and configure the admin panel.
Latest Blog Posts
MCP directory API
We provide all the information about MCP servers via our MCP API.
curl -X GET 'https://glama.ai/api/mcp/v1/servers/Lxsoftroxs/uitars-mcp'
If you have feedback or need assistance with the MCP directory API, please join our Discord server