uitars-mcp

MCP-Server, der KI-Coding-Agenten lokales GUI-Grounding ermöglicht – die Fähigkeit, jedes UI-Element auf dem Bildschirm zu finden und dessen exakte Pixelkoordinaten zurückzugeben.

Angetrieben von UI-TARS-2B, dem 2B-Parameter-GUI-Grounding-Modell von ByteDance.

Warum

Die integrierte Computer-Use-Funktion von Claude Code sendet jeden Screenshot zur Analyse in die Cloud. Dieser MCP-Server führt stattdessen ein lokales Vision-Modell aus:

~1,2 s pro Element-Suche (vs. Cloud-Roundtrip-Latenz)
4,1 GB VRAM (läuft auf jeder modernen GPU)
Vollständig offline – keine API-Schlüssel, keine Cloud-Abhängigkeit
90,7 % Genauigkeit beim ScreenSpot Desktop-Text-Benchmark
Native Pixelkoordinaten – gibt exakte Klickziele zurück

Einrichtung

1. UI-TARS-2B herunterladen

# Requires ~4.5GB disk space
huggingface-cli download bytedance-research/UI-TARS-2B-SFT --local-dir ./ui-tars-2b

2. PyTorch mit CUDA installieren

# Install CUDA-enabled PyTorch first (adjust cu126 to your CUDA version)
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu126

3. uitars-mcp installieren

pip install uitars-mcp
# or from source:
pip install -e .

4. Claude Code konfigurieren

Fügen Sie dies zu Ihren Claude Code MCP-Einstellungen hinzu (~/.claude/settings.json):

{
  "mcpServers": {
    "uitars-mcp": {
      "command": "uitars-mcp",
      "env": {
        "UITARS_MODEL": "/path/to/ui-tars-2b"
      }
    }
  }
}

Wenn es in einem venv installiert ist, verwenden Sie den vollständigen Pfad zur ausführbaren Datei:

{
  "mcpServers": {
    "uitars-mcp": {
      "command": "/path/to/venv/bin/uitars-mcp",
      "env": {
        "UITARS_MODEL": "/path/to/ui-tars-2b"
      }
    }
  }
}

Tools

Tool	Was es tut	Latenz
`find_element`	Findet ein UI-Element anhand einer Beschreibung und gibt Klickkoordinaten zurück	~1,2 s
`describe_screen`	Beschreibt alles, was auf dem Bildschirm sichtbar ist	~2 s
`read_screen_text`	OCR – liest den gesamten Text auf dem Bildschirm	~3 s
`check_element`	Überprüft den Elementstatus (aktiviert, Wert, etc.)	~1 s
`verify_action`	Überprüft, ob eine Aktion funktioniert hat, indem der Bildschirmstatus geprüft wird	~1,5 s
`suggest_action`	Schlägt die nächste Aktion vor, um ein Ziel zu erreichen	~1,5 s
`benchmark`	Misst die End-to-End-Latenz	variiert

Funktionsweise

Erstellt einen Screenshot via mss (schnell, plattformübergreifend)
Ändert die Größe auf 1344px Breite (optimale Vision-Token-Anzahl)
Führt die UI-TARS-2B-Inferenz auf der GPU aus
Konvertiert die normalisierten 0-1000-Koordinaten des Modells in native Bildschirm-Pixel
Gibt Koordinaten zurück, die für computer-use-Klick-Tools bereit sind

Das Modell wird beim ersten Aufruf verzögert geladen (~3 s) und verbleibt dann für nachfolgende Aufrufe im VRAM.

Umgebungsvariablen

Variable	Standard	Beschreibung
`UITARS_MODEL`	(erforderlich)	Pfad zum UI-TARS-2B-Modellverzeichnis

Anforderungen

Python 3.10+
NVIDIA GPU mit 4,1 GB+ VRAM
CUDA-fähiges PyTorch
Windows oder Linux (macOS nicht getestet)

This server cannot be installed

-

security - not tested

A

license - permissive license

-

quality - not tested

How are these scores calculated?

Resources

GitHub Repository

Need Help?

Related Servers

Unclaimed servers have limited discoverability.

Looking for Admin?

If you are the server author, to access and configure the admin panel.

uitars-mcp

uitars-mcp

Warum

Einrichtung

1. UI-TARS-2B herunterladen

2. PyTorch mit CUDA installieren

3. uitars-mcp installieren

4. Claude Code konfigurieren

Tools

Funktionsweise

Umgebungsvariablen

Anforderungen

Resources

Looking for Admin?

Latest Blog Posts

MCP directory API