Skip to main content
Glama

uitars-mcp

AIコーディングエージェントにローカルGUIグラウンディング(画面上のあらゆるUI要素を見つけ、その正確なピクセル座標を返す機能)を提供するMCPサーバーです。

ByteDanceの2BパラメータGUIグラウンディングモデルであるUI-TARS-2Bを搭載しています。

なぜこれを使うのか

Claude Codeの組み込みコンピュータ操作機能は、分析のためにすべてのスクリーンショットをクラウドに送信します。このMCPサーバーは代わりにローカルのビジョンモデルを実行します:

  • 要素検索あたり約1.2秒(クラウドの往復レイテンシと比較)

  • 4.1GB VRAM(最新のGPUであれば動作可能)

  • 完全オフライン — APIキー不要、クラウド依存なし

  • 90.7%の精度(ScreenSpotデスクトップテキストベンチマークにおいて)

  • ネイティブピクセル座標 — 正確なクリックターゲットを返します

セットアップ

1. UI-TARS-2Bをダウンロード

# Requires ~4.5GB disk space
huggingface-cli download bytedance-research/UI-TARS-2B-SFT --local-dir ./ui-tars-2b

2. PyTorchとCUDAをインストール

# Install CUDA-enabled PyTorch first (adjust cu126 to your CUDA version)
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu126

3. uitars-mcpをインストール

pip install uitars-mcp
# or from source:
pip install -e .

4. Claude Codeを設定

Claude CodeのMCP設定(~/.claude/settings.json)に追加します:

{
  "mcpServers": {
    "uitars-mcp": {
      "command": "uitars-mcp",
      "env": {
        "UITARS_MODEL": "/path/to/ui-tars-2b"
      }
    }
  }
}

venvにインストールした場合は、実行ファイルへのフルパスを使用してください:

{
  "mcpServers": {
    "uitars-mcp": {
      "command": "/path/to/venv/bin/uitars-mcp",
      "env": {
        "UITARS_MODEL": "/path/to/ui-tars-2b"
      }
    }
  }
}

ツール

ツール

機能

レイテンシ

find_element

説明からUI要素を見つけ、クリック座標を返す

約1.2秒

describe_screen

画面上のすべての表示内容を説明する

約2秒

read_screen_text

OCR — 画面上のすべてのテキストを読み取る

約3秒

check_element

要素の状態(有効、値など)を確認する

約1秒

verify_action

画面状態を確認してアクションが成功したか検証する

約1.5秒

suggest_action

目標達成のための次のアクションを提案する

約1.5秒

benchmark

エンドツーエンドのレイテンシを測定する

変動

仕組み

  1. mssを介してスクリーンショットを撮影(高速、クロスプラットフォーム)

  2. 幅1344pxにリサイズ(最適なビジョントークン数)

  3. GPU上でUI-TARS-2B推論を実行

  4. モデルの0-1000正規化座標をネイティブ画面ピクセルに変換

  5. computer-useクリックツールで使用可能な座標を返す

モデルは初回呼び出し時に遅延読み込み(約3秒)され、その後は後続の呼び出しのためにVRAMに保持されます。

環境変数

変数

デフォルト

説明

UITARS_MODEL

(必須)

UI-TARS-2Bモデルディレクトリへのパス

要件

  • Python 3.10以上

  • 4.1GB以上のVRAMを搭載したNVIDIA GPU

  • CUDA対応のPyTorch

  • WindowsまたはLinux(macOSは未検証)

-
security - not tested
A
license - permissive license
-
quality - not tested

Resources

Unclaimed servers have limited discoverability.

Looking for Admin?

If you are the server author, to access and configure the admin panel.

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/Lxsoftroxs/uitars-mcp'

If you have feedback or need assistance with the MCP directory API, please join our Discord server