Skip to main content
Glama

mcp-helm

Claudeから実際のChromeセッションを操作します — ハンドオフ認識機能を備えたコパイロットモードです。

ほとんどのブラウザ自動化MCPサーバーは、新しいPlaywright Chromiumを起動します。しかし、「Stripeにログインして5つの項目をクリックする」といった作業では、Cookieや2FA、ブックマークが引き継がれないため役に立ちません。mcp-helmは「あなたの」Chromeに接続します。すでにログイン済みのブラウザを使用し、Claudeがアクティブなタブに対して一連のツールを実行できるようにします。

また、いつ操作を中断すべきかも認識します。ページに2FAプロンプト、キャプチャ、支払い確認、または生体認証リクエストが表示されると、スクリーンショットツールがそれをフラグ立てし、Claudeはhandoff()を呼び出してあなたに操作を委ねることができます。

なぜこれが必要なのか

「目と手」の問題です。Claudeが「設定 → APIアクセスをクリックして」と言い、あなたが設定をクリックしてもAPIアクセスが存在しない場合、スクリーンショットをClaudeに送り返し、Claudeが再度推測するというやり取りが発生します。5秒のタスクのために5分間の往復が発生し、Stripe、Apple、Play Console、Cloudflare、Vercelなどの設定を行うたびにこれが繰り返されます。

mcp-helmはこのループを断ち切ります。Claudeは実際のページを確認し、アクセシビリティツリーから要素を選択(座標の推測は不要)し、実行すべきでない操作に直面した場合は停止します。

インストール

npm install -g mcp-helm

~/.claude.json(またはMCPクライアントの設定ファイル)に追加します:

{
  "mcpServers": {
    "helm": {
      "command": "mcp-helm"
    }
  }
}

使用方法

1. 操作可能なChromeを起動する

シェルrcファイルに以下のエイリアスを追加します:

alias chrome-pilot='open -a "Google Chrome" --args --remote-debugging-port=9222 --user-data-dir=$HOME/.chrome-pilot'

一度実行します:chrome-pilot。別のChromeプロファイルが開きます。Claudeに操作させたいすべてのサービス(Play Console、Stripeなど)にログインしてください。Cookieは起動後も保持されるため、サービスごとに一度ログインするだけで済みます。

なぜ別のプロファイルなのか? メインのChromeは、すでに実行中の場合、リモートデバッグモードで起動できないためです。専用プロファイルは ~/.chrome-pilot に保存され、日常のブラウジングとは分離されます。

2. Claudeから使用する

You: Upload the AAB at <path> to Play Store internal testing.
Claude: [calls helm.attach] → [helm.navigate to play.google.com/console]
        [helm.screenshot] → sees the dashboard
        [helm.click "Personalized AI Portfolio Bot"]
        ... etc

2FAプロンプトが表示されると、screenshothandoffTriggers: ["2FA prompt"]を返し、Claudeはhandoffを呼び出して待機します。

ツール

ツール

目的

attach

ポート9222でChromeに接続します。最初に必ず呼び出してください。

list_tabs

開いているすべてのタブを一覧表示します。

focus_tab

インデックスまたはURLのサブ文字列でアクティブなタブを切り替えます。

screenshot

PNG + URL + タイトル + 検出されたハンドオフトリガーを返します。

inspect

インタラクティブな要素の番号付きリスト(a11yツリー)を表示します。

click

ID(inspectから取得)、テキスト、またはCSSセレクターでクリックします。スクリーンショットの差分からchanged: boolを返します。

type

フィールドに入力します。submit: trueでEnterキーを押します。

navigate

URLに移動します。

wait_for

テキストまたはセレクターを待機します。

handoff

一時停止し、人間に操作を交代するよう求めます。

設計上の選択

  • 座標ではなくアクセシビリティツリーを使用。 視覚ベースのクリック(Anthropicのコンピュータ使用)は優れていますが、Retinaディスプレイや高DPRスケーリングでは不安定になりがちです。a11yツリーは安定したセマンティックなIDを提供し、スクリーンリーダーが使用するものと同じです。

  • クリックごとにスクリーンショットの差分を確認。 changed: falseの場合、クリックは無効でした。Claudeが成功したと誤って報告するのを防ぎます。

  • ハンドオフ検出は正規表現ベース(LLMベースではない)。 安価で高速であり、一般的なログインフレーズで誤検知が発生しません。

  • タブ管理のヒューリスティックはなし。 attachは最初の空でないタブを選択します。正確に行うにはlist_tabsfocus_tabを使用してください。予測可能性は巧妙さよりも優れています。

ステータス

v0.1 — 単純なフロー(Play Console、Stripeダッシュボード、Vercel、Cloudflare)で動作します。まだ対応していないエッジケース:

  • Shadow DOMコンポーネント(Webコンポーネントを多用するサイト)

  • iframe(フレーム切り替えの対応が必要)

  • ディスクからのファイルアップロード

  • Enterキー以外のキーボードショートカット

ライセンス

MIT

Install Server
A
license - permissive license
A
quality
C
maintenance

Resources

Unclaimed servers have limited discoverability.

Looking for Admin?

If you are the server author, to access and configure the admin panel.

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/flying-pisces/mcp-helm'

If you have feedback or need assistance with the MCP directory API, please join our Discord server