uitars-mcp
uitars-mcp
MCP-Server, der KI-Coding-Agenten lokales GUI-Grounding ermöglicht – die Fähigkeit, jedes UI-Element auf dem Bildschirm zu finden und dessen exakte Pixelkoordinaten zurückzugeben.
Angetrieben von UI-TARS-2B, dem 2B-Parameter-GUI-Grounding-Modell von ByteDance.
Warum
Die integrierte Computer-Use-Funktion von Claude Code sendet jeden Screenshot zur Analyse in die Cloud. Dieser MCP-Server führt stattdessen ein lokales Vision-Modell aus:
~1,2 s pro Element-Suche (vs. Cloud-Roundtrip-Latenz)
4,1 GB VRAM (läuft auf jeder modernen GPU)
Vollständig offline – keine API-Schlüssel, keine Cloud-Abhängigkeit
90,7 % Genauigkeit beim ScreenSpot Desktop-Text-Benchmark
Native Pixelkoordinaten – gibt exakte Klickziele zurück
Einrichtung
1. UI-TARS-2B herunterladen
# Requires ~4.5GB disk space
huggingface-cli download bytedance-research/UI-TARS-2B-SFT --local-dir ./ui-tars-2b2. PyTorch mit CUDA installieren
# Install CUDA-enabled PyTorch first (adjust cu126 to your CUDA version)
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu1263. uitars-mcp installieren
pip install uitars-mcp
# or from source:
pip install -e .4. Claude Code konfigurieren
Fügen Sie dies zu Ihren Claude Code MCP-Einstellungen hinzu (~/.claude/settings.json):
{
"mcpServers": {
"uitars-mcp": {
"command": "uitars-mcp",
"env": {
"UITARS_MODEL": "/path/to/ui-tars-2b"
}
}
}
}Wenn es in einem venv installiert ist, verwenden Sie den vollständigen Pfad zur ausführbaren Datei:
{
"mcpServers": {
"uitars-mcp": {
"command": "/path/to/venv/bin/uitars-mcp",
"env": {
"UITARS_MODEL": "/path/to/ui-tars-2b"
}
}
}
}Tools
Tool | Was es tut | Latenz |
| Findet ein UI-Element anhand einer Beschreibung und gibt Klickkoordinaten zurück | ~1,2 s |
| Beschreibt alles, was auf dem Bildschirm sichtbar ist | ~2 s |
| OCR – liest den gesamten Text auf dem Bildschirm | ~3 s |
| Überprüft den Elementstatus (aktiviert, Wert, etc.) | ~1 s |
| Überprüft, ob eine Aktion funktioniert hat, indem der Bildschirmstatus geprüft wird | ~1,5 s |
| Schlägt die nächste Aktion vor, um ein Ziel zu erreichen | ~1,5 s |
| Misst die End-to-End-Latenz | variiert |
Funktionsweise
Erstellt einen Screenshot via
mss(schnell, plattformübergreifend)Ändert die Größe auf 1344px Breite (optimale Vision-Token-Anzahl)
Führt die UI-TARS-2B-Inferenz auf der GPU aus
Konvertiert die normalisierten 0-1000-Koordinaten des Modells in native Bildschirm-Pixel
Gibt Koordinaten zurück, die für
computer-use-Klick-Tools bereit sind
Das Modell wird beim ersten Aufruf verzögert geladen (~3 s) und verbleibt dann für nachfolgende Aufrufe im VRAM.
Umgebungsvariablen
Variable | Standard | Beschreibung |
| (erforderlich) | Pfad zum UI-TARS-2B-Modellverzeichnis |
Anforderungen
Python 3.10+
NVIDIA GPU mit 4,1 GB+ VRAM
CUDA-fähiges PyTorch
Windows oder Linux (macOS nicht getestet)
This server cannot be installed
Resources
Unclaimed servers have limited discoverability.
Looking for Admin?
If you are the server author, to access and configure the admin panel.
Latest Blog Posts
MCP directory API
We provide all the information about MCP servers via our MCP API.
curl -X GET 'https://glama.ai/api/mcp/v1/servers/Lxsoftroxs/uitars-mcp'
If you have feedback or need assistance with the MCP directory API, please join our Discord server