Skip to main content
Glama

mcp-helm

Steuern Sie Ihre echte Chrome-Sitzung von Claude aus – Copilot-Modus mit Übergabe-Erkennung.

Die meisten MCP-Server für Browser-Automatisierung starten ein frisches Playwright-Chromium. Das ist nutzlos, wenn die Aufgabe darin besteht, sich bei Stripe anzumelden und 5 Dinge anzuklicken – Sie haben dort weder Ihre Cookies, noch Ihre 2FA oder Ihre Lesezeichen. mcp-helm verbindet sich mit IHREM Chrome, dem Browser, bei dem Sie bereits angemeldet sind, und ermöglicht es Claude, eine kleine Auswahl an Tools auf dem aktiven Tab auszuführen.

Es weiß auch, wann es sich zurückziehen muss: Wenn die Seite eine 2FA-Aufforderung, ein Captcha, eine Zahlungsbestätigung oder eine biometrische Anfrage anzeigt, markiert das Screenshot-Tool dies und Claude kann handoff() aufrufen, um auf Sie zu warten.

Warum gibt es das?

Das Problem mit den Augen und Händen: Claude sagt Ihnen „Klicken Sie auf Einstellungen → API-Zugriff“, Sie klicken auf Einstellungen, aber dort gibt es keinen API-Zugriff. Also machen Sie einen Screenshot für Claude, das dann erneut rät. Das sind 5 Minuten Hin-und-Her für eine 5-Sekunden-Aufgabe, und das passiert bei jeder Einrichtung von Stripe / Apple / Play Console / Cloudflare / Vercel.

mcp-helm verkürzt diese Schleife. Claude sieht die tatsächliche Seite, wählt Elemente aus dem Accessibility-Tree aus (kein Raten von Koordinaten) und stoppt, wenn es etwas tun würde, das es nicht tun sollte.

Installation

npm install -g mcp-helm

Fügen Sie dies zu ~/.claude.json (oder der Konfiguration Ihres MCP-Clients) hinzu:

{
  "mcpServers": {
    "helm": {
      "command": "mcp-helm"
    }
  }
}

Verwendung

1. Starten Sie einen steuerbaren Chrome

Fügen Sie diesen Alias zu Ihrer Shell-RC hinzu:

alias chrome-pilot='open -a "Google Chrome" --args --remote-debugging-port=9222 --user-data-dir=$HOME/.chrome-pilot'

Führen Sie ihn einmal aus: chrome-pilot. Ein separates Chrome-Profil öffnet sich. Melden Sie sich bei allem an, was Claude steuern soll (Play Console, Stripe, etc.). Cookies bleiben über Sitzungen hinweg erhalten – Sie melden sich nur einmal pro Dienst an.

Warum ein separates Profil? Ihr Haupt-Chrome kann nicht im Remote-Debugging-Modus gestartet werden, während er bereits läuft. Das dedizierte Profil befindet sich in ~/.chrome-pilot und bleibt von Ihrem täglichen Surfen getrennt.

2. Von Claude aus

You: Upload the AAB at <path> to Play Store internal testing.
Claude: [calls helm.attach] → [helm.navigate to play.google.com/console]
        [helm.screenshot] → sees the dashboard
        [helm.click "Personalized AI Portfolio Bot"]
        ... etc

Wenn eine 2FA-Aufforderung erscheint, gibt screenshot handoffTriggers: ["2FA prompt"] zurück und Claude ruft handoff auf, um zu warten.

Tools

Tool

Zweck

attach

Verbindung zu Chrome auf Port 9222 herstellen. Immer zuerst aufrufen.

list_tabs

Alle offenen Tabs auflisten.

focus_tab

Aktiven Tab nach Index oder URL-Teilzeichenfolge wechseln.

screenshot

PNG + URL + Titel + erkannte Übergabe-Auslöser.

inspect

Nummerierte Liste interaktiver Elemente (a11y-Tree).

click

Klicken nach ID (aus inspect), Text oder CSS-Selektor. Gibt changed: bool aus dem Screenshot-Diff zurück.

type

In ein Feld tippen. submit: true drückt danach die Eingabetaste.

navigate

Zu einer URL navigieren.

wait_for

Auf Text oder Selektor warten.

handoff

Pausieren und den Menschen bitten, zu übernehmen.

Design-Entscheidungen

  • Accessibility-Tree, nicht Koordinaten. Visuell gestütztes Klicken (Anthropic Computer Use) ist großartig, aber fehleranfällig auf Retina-Displays und bei hoher DPR-Skalierung. Der a11y-Tree liefert stabile, semantische IDs – und ist das, was Screenreader verwenden.

  • Screenshot-Diff nach jedem Klick. Wenn changed: false, war der Klick wirkungslos. Das bewahrt Claude davor, fröhlich Erfolg zu melden.

  • Übergabe-Erkennung basiert auf Regex, nicht auf LLM. Günstig, schnell, keine Fehlalarme bei gängigen Anmeldephrasen.

  • Keine Heuristiken für Tab-Management. attach wählt den ersten nicht leeren Tab; verwenden Sie list_tabs + focus_tab, um präzise zu sein. Vorhersehbarkeit ist besser als Cleverness.

Status

v0.1 – funktioniert für einfache Abläufe (Play Console, Stripe-Dashboard, Vercel, Cloudflare). Grenzfälle, die noch nicht behandelt werden:

  • Shadow-DOM-Komponenten (einige Web-Component-lastige Seiten)

  • iframes (muss das Wechseln von Frames unterstützen)

  • Datei-Uploads von der Festplatte

  • Tastaturkürzel außer Enter

Lizenz

MIT

Install Server
A
license - permissive license
A
quality
C
maintenance

Resources

Unclaimed servers have limited discoverability.

Looking for Admin?

If you are the server author, to access and configure the admin panel.

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/flying-pisces/mcp-helm'

If you have feedback or need assistance with the MCP directory API, please join our Discord server