mcp-helm
mcp-helm
Steuern Sie Ihre echte Chrome-Sitzung von Claude aus – Copilot-Modus mit Übergabe-Erkennung.
Die meisten MCP-Server für Browser-Automatisierung starten ein frisches Playwright-Chromium. Das ist nutzlos, wenn die Aufgabe darin besteht, sich bei Stripe anzumelden und 5 Dinge anzuklicken – Sie haben dort weder Ihre Cookies, noch Ihre 2FA oder Ihre Lesezeichen. mcp-helm verbindet sich mit IHREM Chrome, dem Browser, bei dem Sie bereits angemeldet sind, und ermöglicht es Claude, eine kleine Auswahl an Tools auf dem aktiven Tab auszuführen.
Es weiß auch, wann es sich zurückziehen muss: Wenn die Seite eine 2FA-Aufforderung, ein Captcha, eine Zahlungsbestätigung oder eine biometrische Anfrage anzeigt, markiert das Screenshot-Tool dies und Claude kann handoff() aufrufen, um auf Sie zu warten.
Warum gibt es das?
Das Problem mit den Augen und Händen: Claude sagt Ihnen „Klicken Sie auf Einstellungen → API-Zugriff“, Sie klicken auf Einstellungen, aber dort gibt es keinen API-Zugriff. Also machen Sie einen Screenshot für Claude, das dann erneut rät. Das sind 5 Minuten Hin-und-Her für eine 5-Sekunden-Aufgabe, und das passiert bei jeder Einrichtung von Stripe / Apple / Play Console / Cloudflare / Vercel.
mcp-helm verkürzt diese Schleife. Claude sieht die tatsächliche Seite, wählt Elemente aus dem Accessibility-Tree aus (kein Raten von Koordinaten) und stoppt, wenn es etwas tun würde, das es nicht tun sollte.
Installation
npm install -g mcp-helmFügen Sie dies zu ~/.claude.json (oder der Konfiguration Ihres MCP-Clients) hinzu:
{
"mcpServers": {
"helm": {
"command": "mcp-helm"
}
}
}Verwendung
1. Starten Sie einen steuerbaren Chrome
Fügen Sie diesen Alias zu Ihrer Shell-RC hinzu:
alias chrome-pilot='open -a "Google Chrome" --args --remote-debugging-port=9222 --user-data-dir=$HOME/.chrome-pilot'Führen Sie ihn einmal aus: chrome-pilot. Ein separates Chrome-Profil öffnet sich. Melden Sie sich bei allem an, was Claude steuern soll (Play Console, Stripe, etc.). Cookies bleiben über Sitzungen hinweg erhalten – Sie melden sich nur einmal pro Dienst an.
Warum ein separates Profil? Ihr Haupt-Chrome kann nicht im Remote-Debugging-Modus gestartet werden, während er bereits läuft. Das dedizierte Profil befindet sich in
~/.chrome-pilotund bleibt von Ihrem täglichen Surfen getrennt.
2. Von Claude aus
You: Upload the AAB at <path> to Play Store internal testing.
Claude: [calls helm.attach] → [helm.navigate to play.google.com/console]
[helm.screenshot] → sees the dashboard
[helm.click "Personalized AI Portfolio Bot"]
... etcWenn eine 2FA-Aufforderung erscheint, gibt screenshot handoffTriggers: ["2FA prompt"] zurück und Claude ruft handoff auf, um zu warten.
Tools
Tool | Zweck |
| Verbindung zu Chrome auf Port 9222 herstellen. Immer zuerst aufrufen. |
| Alle offenen Tabs auflisten. |
| Aktiven Tab nach Index oder URL-Teilzeichenfolge wechseln. |
| PNG + URL + Titel + erkannte Übergabe-Auslöser. |
| Nummerierte Liste interaktiver Elemente (a11y-Tree). |
| Klicken nach ID (aus inspect), Text oder CSS-Selektor. Gibt |
| In ein Feld tippen. |
| Zu einer URL navigieren. |
| Auf Text oder Selektor warten. |
| Pausieren und den Menschen bitten, zu übernehmen. |
Design-Entscheidungen
Accessibility-Tree, nicht Koordinaten. Visuell gestütztes Klicken (Anthropic Computer Use) ist großartig, aber fehleranfällig auf Retina-Displays und bei hoher DPR-Skalierung. Der a11y-Tree liefert stabile, semantische IDs – und ist das, was Screenreader verwenden.
Screenshot-Diff nach jedem Klick. Wenn
changed: false, war der Klick wirkungslos. Das bewahrt Claude davor, fröhlich Erfolg zu melden.Übergabe-Erkennung basiert auf Regex, nicht auf LLM. Günstig, schnell, keine Fehlalarme bei gängigen Anmeldephrasen.
Keine Heuristiken für Tab-Management.
attachwählt den ersten nicht leeren Tab; verwenden Sielist_tabs+focus_tab, um präzise zu sein. Vorhersehbarkeit ist besser als Cleverness.
Status
v0.1 – funktioniert für einfache Abläufe (Play Console, Stripe-Dashboard, Vercel, Cloudflare). Grenzfälle, die noch nicht behandelt werden:
Shadow-DOM-Komponenten (einige Web-Component-lastige Seiten)
iframes (muss das Wechseln von Frames unterstützen)
Datei-Uploads von der Festplatte
Tastaturkürzel außer Enter
Lizenz
MIT
Resources
Unclaimed servers have limited discoverability.
Looking for Admin?
If you are the server author, to access and configure the admin panel.
Latest Blog Posts
MCP directory API
We provide all the information about MCP servers via our MCP API.
curl -X GET 'https://glama.ai/api/mcp/v1/servers/flying-pisces/mcp-helm'
If you have feedback or need assistance with the MCP directory API, please join our Discord server