Skip to main content
Glama

uitars-mcp

MCP-Server, der KI-Coding-Agenten lokales GUI-Grounding ermöglicht – die Fähigkeit, jedes UI-Element auf dem Bildschirm zu finden und dessen exakte Pixelkoordinaten zurückzugeben.

Angetrieben von UI-TARS-2B, dem 2B-Parameter-GUI-Grounding-Modell von ByteDance.

Warum

Die integrierte Computer-Use-Funktion von Claude Code sendet jeden Screenshot zur Analyse in die Cloud. Dieser MCP-Server führt stattdessen ein lokales Vision-Modell aus:

  • ~1,2 s pro Element-Suche (vs. Cloud-Roundtrip-Latenz)

  • 4,1 GB VRAM (läuft auf jeder modernen GPU)

  • Vollständig offline – keine API-Schlüssel, keine Cloud-Abhängigkeit

  • 90,7 % Genauigkeit beim ScreenSpot Desktop-Text-Benchmark

  • Native Pixelkoordinaten – gibt exakte Klickziele zurück

Einrichtung

1. UI-TARS-2B herunterladen

# Requires ~4.5GB disk space
huggingface-cli download bytedance-research/UI-TARS-2B-SFT --local-dir ./ui-tars-2b

2. PyTorch mit CUDA installieren

# Install CUDA-enabled PyTorch first (adjust cu126 to your CUDA version)
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu126

3. uitars-mcp installieren

pip install uitars-mcp
# or from source:
pip install -e .

4. Claude Code konfigurieren

Fügen Sie dies zu Ihren Claude Code MCP-Einstellungen hinzu (~/.claude/settings.json):

{
  "mcpServers": {
    "uitars-mcp": {
      "command": "uitars-mcp",
      "env": {
        "UITARS_MODEL": "/path/to/ui-tars-2b"
      }
    }
  }
}

Wenn es in einem venv installiert ist, verwenden Sie den vollständigen Pfad zur ausführbaren Datei:

{
  "mcpServers": {
    "uitars-mcp": {
      "command": "/path/to/venv/bin/uitars-mcp",
      "env": {
        "UITARS_MODEL": "/path/to/ui-tars-2b"
      }
    }
  }
}

Tools

Tool

Was es tut

Latenz

find_element

Findet ein UI-Element anhand einer Beschreibung und gibt Klickkoordinaten zurück

~1,2 s

describe_screen

Beschreibt alles, was auf dem Bildschirm sichtbar ist

~2 s

read_screen_text

OCR – liest den gesamten Text auf dem Bildschirm

~3 s

check_element

Überprüft den Elementstatus (aktiviert, Wert, etc.)

~1 s

verify_action

Überprüft, ob eine Aktion funktioniert hat, indem der Bildschirmstatus geprüft wird

~1,5 s

suggest_action

Schlägt die nächste Aktion vor, um ein Ziel zu erreichen

~1,5 s

benchmark

Misst die End-to-End-Latenz

variiert

Funktionsweise

  1. Erstellt einen Screenshot via mss (schnell, plattformübergreifend)

  2. Ändert die Größe auf 1344px Breite (optimale Vision-Token-Anzahl)

  3. Führt die UI-TARS-2B-Inferenz auf der GPU aus

  4. Konvertiert die normalisierten 0-1000-Koordinaten des Modells in native Bildschirm-Pixel

  5. Gibt Koordinaten zurück, die für computer-use-Klick-Tools bereit sind

Das Modell wird beim ersten Aufruf verzögert geladen (~3 s) und verbleibt dann für nachfolgende Aufrufe im VRAM.

Umgebungsvariablen

Variable

Standard

Beschreibung

UITARS_MODEL

(erforderlich)

Pfad zum UI-TARS-2B-Modellverzeichnis

Anforderungen

  • Python 3.10+

  • NVIDIA GPU mit 4,1 GB+ VRAM

  • CUDA-fähiges PyTorch

  • Windows oder Linux (macOS nicht getestet)

-
security - not tested
A
license - permissive license
-
quality - not tested

Resources

Unclaimed servers have limited discoverability.

Looking for Admin?

If you are the server author, to access and configure the admin panel.

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/Lxsoftroxs/uitars-mcp'

If you have feedback or need assistance with the MCP directory API, please join our Discord server