MCP Test Utils

Name: mcp-test-utils
Author: JeenyJAI

100% AIコード・人間によるレビュー済み

version: 3.10.1 tools: 19 AI generated: 100%

自動デスクトップUIテスト用のMCPサーバー。シングルバイナリで、ランタイムや依存関係、インストールは不要です。

Windows x64専用。 macOSおよびLinuxのサポートを予定しています。

AIエージェントに目と手を提供します：スクリーンショット、ウィンドウ管理、マウス、キーボード、UIオートメーション、OCR、ファイル検索。

なぜこれが必要か

AIエージェントはアプリケーション内のアクションをトリガーできますが、画面を見ることはできません。このサーバーはそのギャップを埋めます：

Agent triggers action → takes screenshot → sees the result →
switches window → clicks a button → verifies → writes report

完全に自律的で、ユーザーの介入は不要です。

デモ

10のタスク。一発撮り。YouTubeで見る →

MCP Test Utils — Full Demo

MCP Test Utils と Anthropic Computer Use の比較

Claude Coworkには、組み込みのComputer Useが含まれています。Claudeはスクリーンショットを撮り、視覚的にインターフェースをクリックします。設定なしで動作します。MCP Test Utilsは異なるアプローチをとります。スクリーンショットからクリック位置を推測するのではなく、Windows APIを通じて実際のUI構造を読み取ります。

	MCP Test Utils	Computer Use
クリック精度	正確 — UI Automation API	スクリーンショットからの視覚的推定
速度とトークンコスト	高速、低コスト — テキスト応答	低速、高コスト — ステップごとに画像が必要
UI構造	完全なツリー：ロール、状態、座標	利用不可
OCR	単語レベルの座標、多言語対応	利用不可（モデルの視覚機能のみ）
ウィンドウ管理	APIベース、ウィンドウ相対座標	視覚的ナビゲーション
ファイル検索	Ripgrepエンジン内蔵	利用不可
セッションログ	JSONL + スクリーンショット	利用不可
視覚分析	✅ 同じClaudeモデル、フル解像度1:1	✅ 同じClaudeモデル
セットアップ	バイナリをダウンロードし、設定に追加	組み込み、トグル一つ
モバイル / Dispatch	—	✅ スマホからのタスク
クロスプラットフォーム	Windows (macOS/Linux予定)	macOS + Windows

MCP Test Utilsは、より高速で正確、かつアクションあたりのコストが安価です。Computer Useは開始が容易で、プラットフォームをまたいで動作します。これらは互いに補完し合います。

プラットフォーム

プラットフォーム	ステータス
Windows x64	✅ 完全サポート
macOS arm64	⏳ 予定
Linux x64	⏳ 予定

ツール (19)

ビジョン

ツール	説明
`take_screenshot`	設定可能な品質でデスクトップ全体のスクリーンショットを撮影
`take_window_screenshot`	特定のウィンドウのスクリーンショットを撮影（画面またはウィンドウキャプチャモード）
`read_screen_text`	画面全体のOCR（Windows.Media.Ocr）
`read_region_text`	正確な単語座標を使用して画面領域をOCR

ウィンドウ管理

ツール	説明
`list_windows`	ID、タイトル、アプリ、位置、サイズ、最小化、フォーカス状態を含むウィンドウリストを表示
`focus_window`	ウィンドウを最前面に表示し、最小化されている場合は復元

入力

ツール	説明
`mouse_click`	画面またはウィンドウ相対座標でクリック（左/右/中央）
`mouse_move`	カーソルを特定のポイントへ移動
`mouse_drag`	ポイントAからポイントBへドラッグ
`mouse_scroll`	マウスホイールをスクロール
`keyboard_type`	テキストを入力（完全なUnicode — ラテン文字、キリル文字、CJK、絵文字）
`keyboard_press`	キーを押す（Enter、Tab、F1–F12、矢印など）
`keyboard_shortcut`	キーの組み合わせ（Ctrl+S、Alt+F4、Ctrl+Shift+Pなど）

構造化UIアクセス

ツール	説明
`list_ui_elements`	UIオートメーションツリー — 正確な座標を持つボタン、フィールド、メニュー

ファイル検索

ツール	説明
`search_in_files`	許可されたディレクトリ内のファイルでテキストまたは正規表現を検索（VS Codeの「ファイル内検索」と同様）
`find_files`	名前パターン（glob）でファイルやディレクトリを検索（「ファイルへ移動」と同様）

エージェントガイド

ツール	説明
`get_usage_guide`	LLMエージェント向けのコンパクトなワークフローガイド — 精密なクリック、座標メタデータ、品質のヒント

セッションログ

ツール	説明
`enable_logging`	ツール呼び出しをJSONL + スクリーンショットに記録開始（オプトイン）
`disable_logging`	記録を停止し、セッション統計を取得

インストール

Releasesからバイナリをダウンロードします。
MCPクライアントの設定に追加します。以下の例はClaude Desktop用です。他のクライアントについては、それぞれのドキュメントを参照してください。

Claude Desktop: %APPDATA%\Claude\claude_desktop_config.json

{
  "mcpServers": {
    "test-utils": {
      "command": "D:\\path\\to\\mcp-test-utils.exe"
    }
  }
}

Claude Desktopを再起動します。
チャットで「スクリーンショットを撮って」と入力すると、エージェントがデスクトップの画像を返します。

ログ記録とファイル検索を使用する場合（オプション）

{
  "mcpServers": {
    "test-utils": {
      "command": "D:\\path\\to\\mcp-test-utils.exe",
      "env": {
        "MCP_LOG_DIR": "D:\\path\\to\\logs",
        "MCP_LOG_MAX_MB": "500",
        "MCP_LOG_RETAIN_DAYS": "30",
        "MCP_SEARCH_DIRS": "D:\\Projects\\app1;D:\\Projects\\app2"
      }
    }
  }
}

品質プリセット

スクリーンショットは、詳細とトークンコストのバランスをとるために品質を設定可能です：

プリセット	スケール	フォーマット	ユースケース
`full`	100%	JPEG q90	最大限の詳細
`standard`	50%	JPEG q70	バランス型（デフォルト）
`compact`	50%	PNG	PNGが必要な場合
`minimal`	25%	グレースケール	最低のトークンコスト
`custom`	10–100%	JPEG / PNG / グレースケール	完全な制御

環境変数

変数	説明	デフォルト
`MCP_LOG_DIR`	ログセッションのパス。指定しない場合、ログツールは非表示
`MCP_LOG_MAX_MB`	セッションサイズ制限（超過時に警告）	`500`
`MCP_LOG_RETAIN_DAYS`	N日より古いセッションを自動削除。`0`で無効化	`30`
`MCP_SEARCH_DIRS`	`search_in_files`で許可されるディレクトリ（Windowsでは`;`、macOS/Linuxでは`:`）。指定しない場合、ツールは非表示

仕組み

MCP Test Utilsは、stdin/stdoutを介して通信するJSON-RPC 2.0サーバーです。MCP互換クライアントがバイナリを起動し、ツール呼び出しを送信して、構造化された応答（テキスト、base64画像）を受け取ります。Claude Desktopでテスト済みです。

サーバーはネイティブのWindows APIを直接使用します。スクリーンショットにはWin32 GDI、マウスとキーボードにはSendInput、要素の検査にはUI Automation COM API、テキスト認識にはWinRT Windows.Media.Ocrを使用します。ファイル検索にはripgrepエンジン（grep-regex、grep-searcher、ignore）を使用しており、クロスプラットフォームで外部依存関係はありません。PowerShellや外部ツール、ネットワークアクセスは使用しません。

ユースケース

自動QA — エージェントがアプリを操作し、フローをクリックし、各ステップでスクリーンショットを撮り、テストレポートを作成します
デスクトップ自動化 — フォームへの入力、ウィンドウ間でのデータコピー、ワークフローの実行
アクセシビリティ監査 — UIオートメーションツリーをスキャンして、欠落しているラベルやロールを確認
視覚的リグレッション — リリース間でのスクリーンショット比較
データ抽出 — APIを公開していないアプリケーションからのテキストOCR
コード検索 — エージェントセッションを離れることなく、複数のプロジェクトにわたるパターンを検索

セキュリティ

MCPクライアントからのリクエストにのみ応答します
ネットワークポートは開きません
ディスクへの書き込みは行いません（オプトインのログ記録を除く）
外部へのデータ送信は行いません
スクリーンショットは画面全体をキャプチャします — 機密情報が表示されていないことを確認してください
ファイル検索はサンドボックス化されています — MCP_SEARCH_DIRS内のディレクトリのみがアクセス可能です

サポート

無料かつ無制限です。役立つと思われた場合は — jeenyjai.github.io

ライセンス

🚀 Created with Claude

mcp-test-utils