mcp-helm
mcp-helm
Claudeから実際のChromeセッションを操作します — ハンドオフ認識機能を備えたコパイロットモードです。
ほとんどのブラウザ自動化MCPサーバーは、新しいPlaywright Chromiumを起動します。しかし、「Stripeにログインして5つの項目をクリックする」といった作業では、Cookieや2FA、ブックマークが引き継がれないため役に立ちません。mcp-helmは「あなたの」Chromeに接続します。すでにログイン済みのブラウザを使用し、Claudeがアクティブなタブに対して一連のツールを実行できるようにします。
また、いつ操作を中断すべきかも認識します。ページに2FAプロンプト、キャプチャ、支払い確認、または生体認証リクエストが表示されると、スクリーンショットツールがそれをフラグ立てし、Claudeはhandoff()を呼び出してあなたに操作を委ねることができます。
なぜこれが必要なのか
「目と手」の問題です。Claudeが「設定 → APIアクセスをクリックして」と言い、あなたが設定をクリックしてもAPIアクセスが存在しない場合、スクリーンショットをClaudeに送り返し、Claudeが再度推測するというやり取りが発生します。5秒のタスクのために5分間の往復が発生し、Stripe、Apple、Play Console、Cloudflare、Vercelなどの設定を行うたびにこれが繰り返されます。
mcp-helmはこのループを断ち切ります。Claudeは実際のページを確認し、アクセシビリティツリーから要素を選択(座標の推測は不要)し、実行すべきでない操作に直面した場合は停止します。
インストール
npm install -g mcp-helm~/.claude.json(またはMCPクライアントの設定ファイル)に追加します:
{
"mcpServers": {
"helm": {
"command": "mcp-helm"
}
}
}使用方法
1. 操作可能なChromeを起動する
シェルrcファイルに以下のエイリアスを追加します:
alias chrome-pilot='open -a "Google Chrome" --args --remote-debugging-port=9222 --user-data-dir=$HOME/.chrome-pilot'一度実行します:chrome-pilot。別のChromeプロファイルが開きます。Claudeに操作させたいすべてのサービス(Play Console、Stripeなど)にログインしてください。Cookieは起動後も保持されるため、サービスごとに一度ログインするだけで済みます。
なぜ別のプロファイルなのか? メインのChromeは、すでに実行中の場合、リモートデバッグモードで起動できないためです。専用プロファイルは
~/.chrome-pilotに保存され、日常のブラウジングとは分離されます。
2. Claudeから使用する
You: Upload the AAB at <path> to Play Store internal testing.
Claude: [calls helm.attach] → [helm.navigate to play.google.com/console]
[helm.screenshot] → sees the dashboard
[helm.click "Personalized AI Portfolio Bot"]
... etc2FAプロンプトが表示されると、screenshotはhandoffTriggers: ["2FA prompt"]を返し、Claudeはhandoffを呼び出して待機します。
ツール
ツール | 目的 |
| ポート9222でChromeに接続します。最初に必ず呼び出してください。 |
| 開いているすべてのタブを一覧表示します。 |
| インデックスまたはURLのサブ文字列でアクティブなタブを切り替えます。 |
| PNG + URL + タイトル + 検出されたハンドオフトリガーを返します。 |
| インタラクティブな要素の番号付きリスト(a11yツリー)を表示します。 |
| ID(inspectから取得)、テキスト、またはCSSセレクターでクリックします。スクリーンショットの差分から |
| フィールドに入力します。 |
| URLに移動します。 |
| テキストまたはセレクターを待機します。 |
| 一時停止し、人間に操作を交代するよう求めます。 |
設計上の選択
座標ではなくアクセシビリティツリーを使用。 視覚ベースのクリック(Anthropicのコンピュータ使用)は優れていますが、Retinaディスプレイや高DPRスケーリングでは不安定になりがちです。a11yツリーは安定したセマンティックなIDを提供し、スクリーンリーダーが使用するものと同じです。
クリックごとにスクリーンショットの差分を確認。
changed: falseの場合、クリックは無効でした。Claudeが成功したと誤って報告するのを防ぎます。ハンドオフ検出は正規表現ベース(LLMベースではない)。 安価で高速であり、一般的なログインフレーズで誤検知が発生しません。
タブ管理のヒューリスティックはなし。
attachは最初の空でないタブを選択します。正確に行うにはlist_tabsとfocus_tabを使用してください。予測可能性は巧妙さよりも優れています。
ステータス
v0.1 — 単純なフロー(Play Console、Stripeダッシュボード、Vercel、Cloudflare)で動作します。まだ対応していないエッジケース:
Shadow DOMコンポーネント(Webコンポーネントを多用するサイト)
iframe(フレーム切り替えの対応が必要)
ディスクからのファイルアップロード
Enterキー以外のキーボードショートカット
ライセンス
MIT
Resources
Unclaimed servers have limited discoverability.
Looking for Admin?
If you are the server author, to access and configure the admin panel.
Latest Blog Posts
MCP directory API
We provide all the information about MCP servers via our MCP API.
curl -X GET 'https://glama.ai/api/mcp/v1/servers/flying-pisces/mcp-helm'
If you have feedback or need assistance with the MCP directory API, please join our Discord server