uitars-mcp

MCP-сервер, который предоставляет ИИ-агентам для программирования возможность локального позиционирования в графическом интерфейсе — способность находить любой элемент интерфейса на экране и возвращать его точные пиксельные координаты.

Работает на базе UI-TARS-2B, модели позиционирования в графическом интерфейсе от ByteDance с 2 млрд параметров.

Зачем это нужно

Встроенная функция компьютерного использования (computer-use) в Claude Code отправляет каждый скриншот в облако для анализа. Этот MCP-сервер вместо этого запускает локальную модель компьютерного зрения:

~1,2 с на поиск элемента (в сравнении с задержкой при обращении к облаку)
4,1 ГБ видеопамяти (работает на любом современном графическом процессоре)
Полностью офлайн — не требуются ключи API, нет зависимости от облака
90,7% точности в бенчмарке ScreenSpot для настольных текстовых интерфейсов
Нативные пиксельные координаты — возвращает точные цели для клика

Настройка

1. Скачайте UI-TARS-2B

# Requires ~4.5GB disk space
huggingface-cli download bytedance-research/UI-TARS-2B-SFT --local-dir ./ui-tars-2b

2. Установите PyTorch с поддержкой CUDA

# Install CUDA-enabled PyTorch first (adjust cu126 to your CUDA version)
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu126

3. Установите uitars-mcp

pip install uitars-mcp
# or from source:
pip install -e .

4. Настройте Claude Code

Добавьте в настройки MCP Claude Code (~/.claude/settings.json):

{
  "mcpServers": {
    "uitars-mcp": {
      "command": "uitars-mcp",
      "env": {
        "UITARS_MODEL": "/path/to/ui-tars-2b"
      }
    }
  }
}

Если установка выполнена в виртуальном окружении (venv), используйте полный путь к исполняемому файлу:

{
  "mcpServers": {
    "uitars-mcp": {
      "command": "/path/to/venv/bin/uitars-mcp",
      "env": {
        "UITARS_MODEL": "/path/to/ui-tars-2b"
      }
    }
  }
}

Инструменты

Инструмент	Что он делает	Задержка
`find_element`	Находит элемент интерфейса по описанию, возвращает координаты клика	~1,2 с
`describe_screen`	Описывает всё, что видно на экране	~2 с
`read_screen_text`	OCR — считывает весь текст на экране	~3 с
`check_element`	Проверяет состояние элемента (включен, значение и т.д.)	~1 с
`verify_action`	Проверяет выполнение действия путем проверки состояния экрана	~1,5 с
`suggest_action`	Предлагает следующее действие для достижения цели	~1,5 с
`benchmark`	Измеряет сквозную задержку	варьируется

Как это работает

Делает скриншот через mss (быстро, кроссплатформенно)
Изменяет размер до 1344 пикселей по ширине (оптимальное количество токенов для зрения)
Запускает инференс UI-TARS-2B на GPU
Преобразует нормализованные координаты модели (0-1000) в нативные пиксели экрана
Возвращает координаты, готовые для инструментов клика computer-use

Модель загружается «лениво» при первом вызове (~3 с), а затем остается в видеопамяти для последующих вызовов.

Переменные окружения

Переменная	По умолчанию	Описание
`UITARS_MODEL`	(обязательно)	Путь к директории модели UI-TARS-2B

Требования

Python 3.10+
Видеокарта NVIDIA с 4,1 ГБ+ видеопамяти
PyTorch с поддержкой CUDA
Windows или Linux (macOS не тестировалась)

uitars-mcp

uitars-mcp

Зачем это нужно

Настройка

1. Скачайте UI-TARS-2B

2. Установите PyTorch с поддержкой CUDA

3. Установите uitars-mcp

4. Настройте Claude Code

Инструменты

Как это работает

Переменные окружения

Требования

Resources

Looking for Admin?

Latest Blog Posts

MCP directory API