agent-browser-mcp
agent-browser-mcp
Ein MCP-Dienst, mit dem dein Agent direkt den „echten Chrome, den du gerade benutzt“ steuern kann.
Es ist kein Sandbox-Browser und kein einfacher Web-Scraper, sondern eine Verbindung zu deinem lokal bereits geöffneten Chrome, wobei Folgendes erhalten bleibt:
Anmeldestatus
Cookies
Geöffnete Tabs
Echter Seitenkontext
Geeignet für Szenarien wie:
Hermes direkt deine Xiaohongshu-Feeds, Backend-Systeme, Wissensdatenbanken oder Admin-Seiten lesen lassen
Automatisierung von bereits angemeldeten Websites, anstatt sich in einem zustandslosen Browser neu anzumelden
Wechsel zu CDP / echter Maus- und Tastatursteuerung, wenn die normale Browser-Automatisierung instabil ist
Alles in einem MCP-Tool vereint: Seitenscan, JS-Ausführung, CDP-Steuerung, Screenshots, physische Eingaben
Kurz zusammengefasst:
Dies ist ein Projekt, das „echte Browser-Automatisierung“ als Standard-MCP verpackt, damit Agenten nicht mehr nur Sandbox-Browser bedienen, sondern wirklich in deinen täglichen Browser-Workflow eintauchen können.
Überblick über die Kernfunktionen
Erkennung und Wechsel von echten Chrome-Tabs
Seitenscan und vereinfachte Inhaltsextraktion
Ausführung von JavaScript innerhalb der Seite
Native CDP-Einzelbefehle / Batch-Aufrufe
Seiten-Screenshots / Desktop-Screenshots
Auslesen von Cookies
Mausbewegungen, Klicks, Drag-and-Drop
Tastatureingaben und Hotkeys
Wenn du möchtest, dass Hermes, Claude Desktop, Cursor oder andere MCP-Clients deinen echten lokalen Browser direkt steuern, ist dieses Projekt genau das Richtige für dich.
Was kann dieses MCP tun?
Dieses Projekt verpackt echte Browser-Automatisierungsfunktionen in Standard-MCP-Tools. Zu den wichtigsten Fähigkeiten gehören:
1. Browser-Tabs und Navigation
Anzeigen der aktuell verbundenen echten Tabs
Wechseln zu einem bestimmten Tab
Öffnen einer URL im aktuellen Tab
Öffnen eines neuen Tabs
2. Seiten lesen
Scannen des aktuellen Seiteninhalts
Extrahieren von vereinfachtem HTML / Text
Geeignet zum Lesen von Informations-Feeds, Beitragslisten und Suchergebnisseiten
3. Seitenausführung und CDP-Steuerung
Ausführen von beliebigem JavaScript auf der Seite
Direkter Aufruf des Chrome DevTools Protocol (CDP)
Unterstützung für Einzelbefehle und Batch-Befehle
Kann für Screenshots, DOM-Abfragen, Klicks, Datei-Uploads und komplexere Vorgänge verwendet werden
4. Screenshot-Funktionen
Seiten-Screenshot (via CDP)
Desktop-Screenshot (zur Unterstützung echter Desktop-Operationen)
5. Echte physische Eingaben
Mausbewegung
Mausklick
Maus-Drag
Tastatureingabe
Hotkey-Versand
Diese Art von Funktionen eignet sich hervorragend für:
Websites, bei denen der Anmeldestatus beibehalten werden muss
Websites, bei denen normale Browser-Automatisierungstools leicht durch Risikokontrollen blockiert werden
Szenarien, die echte Klicks / echte Tastatureingaben erfordern
Szenarien, in denen komplexe Seitenstrukturen gelesen werden müssen
Geeignete Szenarien
Zum Beispiel:
Hermes nutzen, um deinen aktuellen Xiaohongshu-Startseiten-Empfehlungsfeed zu lesen
Backend-Seiten im echten Browser öffnen und Informationen abgreifen
CDP nutzen, um Screenshots von Seiten zu machen
Auf echte Maus-/Tastaturbedienung zurückgreifen, wenn das Seiten-JS nicht ausreicht
Den Agenten direkt auf deinen bereits angemeldeten Websites arbeiten lassen, anstatt sich in einem zustandslosen Browser neu anzumelden
Funktionsweise
Das Projekt besteht aus drei Schichten:
Chrome-Erweiterung
In echte Webseiten injiziert
Zugriff auf
tabs/cookies/debugger/managementüber die Chrome-APIKommunikation mit dem lokalen Bridge-Dienst
TMWebDriver lokale Bridge
Standard-Listening:
WebSocket:
127.0.0.1:18765HTTP:
127.0.0.1:18766
Verantwortlich für die Verbindung zur Erweiterung, die Sitzungsverwaltung und die Weiterleitung der Ausführungsergebnisse
MCP-Dienst
Stellt Browser-Funktionen als MCP-Tools bereit
Zur direkten Nutzung durch Clients wie Hermes, Claude Desktop, Cursor usw.
Wichtigste Tools
Die aktuell bereitgestellten MCP-Tools umfassen:
Browser/Tabs
get_setup_statuslist_tabsswitch_tabopen_urlopen_new_tabextension_pathlist_extensions
Seiten lesen/ausführen
scan_pageexecute_js
CDP und Screenshots
cdp_commandcdp_batchget_cookiescapture_page_screenshotcapture_desktop_screenshot
Physische Eingaben
mouse_movemouse_clickmouse_dragtype_texthotkeypointer_info
Installationsvoraussetzungen
Empfohlene Umgebung:
macOS oder Windows
Python 3.10+
Google Chrome
Ein beliebiger MCP-fähiger Client, zum Beispiel:
Hermes Agent
Claude Desktop
Cursor
Installation
Nach dem lokalen Klonen ausführen:
cd agent-browser-mcp
pip install -e .Wenn du zuerst ein Wheel bauen und dann installieren möchtest:
python -m pip install --upgrade build
python -m build
pip install dist/agent_browser_mcp-0.1.0-py3-none-any.whlBefehlszeilen-Tools
Nach der Installation steht ein CLI zur Verfügung:
agent-browser-mcpEs gibt einige häufig verwendete Unterbefehle:
Chrome-Erweiterungsverzeichnis ausgeben
agent-browser-mcp extension-pathHermes-Konfigurationsfragment ausgeben
agent-browser-mcp print-hermes-configUmgebungsdiagnose
agent-browser-mcp doctorDieser Befehl gibt JSON aus, um dir bei der Überprüfung zu helfen:
Speicherort des Erweiterungsverzeichnisses
Ob
config.jsgeneriert wurdePort-Status
Anzahl der aktuell verbundenen Tabs
Empfehlungen für den nächsten Schritt
Installation der Chrome-Erweiterung
Dieses Projekt enthält eine entpackte Chrome-Erweiterung, die einmal manuell geladen werden muss.
Schritt 1: Erweiterungsverzeichnis abrufen
agent-browser-mcp extension-pathSchritt 2: In Chrome laden
Öffne:
chrome://extensionsDann:
„Entwicklermodus“ aktivieren
Auf „Entpackte Erweiterung laden“ klicken
Das im vorherigen Schritt ausgegebene Verzeichnis auswählen
Schritt 3: Eine normale Webseite öffnen
Achte darauf, nicht auf about:blank zu bleiben.
Bitte öffne eine normale Webseite in Chrome, zum Beispiel:
https://www.baidu.comhttps://www.xiaohongshu.com
Andernfalls wird keine gültige Sitzung aufgebaut.
Hermes-Konfiguration
Füge den folgenden Abschnitt zu ~/.hermes/config.yaml hinzu:
mcp_servers:
agent_browser:
command: agent-browser-mcp
timeout: 120
connect_timeout: 60Das Projekt enthält auch Beispieldateien:
examples/hermes-config.yaml
Starte nach der Konfiguration Hermes neu oder lade das MCP neu.
Du kannst es mit dem folgenden Befehl überprüfen:
hermes mcp list
hermes mcp test agent_browserWenn der Test erfolgreich ist, kann Hermes diese Browser-Tools finden und aufrufen.
Claude Desktop / Cursor Konfiguration
Im Repository befinden sich auch Beispiele:
examples/claude-desktop-config.jsonexamples/cursor-mcp.json
Die Konfigurationsstruktur ist sehr einfach, der Kern ist:
{
"mcpServers": {
"agent_browser": {
"command": "agent-browser-mcp",
"args": []
}
}
}Typischer Workflow
Python-Paket installieren
Erweiterung in Chrome laden
Eine echte Webseite öffnen
Diesen Dienst im MCP-Client einbinden
Browser-Tools aufrufen
Zum Beispiel kann der Agent:
Die Xiaohongshu-Startseite öffnen
Den Empfehlungsfeed lesen
Die Beitragsliste scannen
Einen CDP-Screenshot der Seite machen
Bei Bedarf echte Maus-/Tastaturbedienungen ausführen
Sicherheitshinweis
Dieses Projekt steuert deinen echten Browser und deinen echten Desktop.
Das bedeutet:
Mausbewegungen sind echt
Klicks sind echt
Eingaben sind echt
Hotkeys sind echt
Der Anmeldestatus im Browser ist ebenfalls echt
Bitte verwende dies nur in MCP-Clients und Agenten-Umgebungen, denen du vertraust.
Häufig gestellte Fragen
1. Hermes sieht den MCP-Dienst, ist aber mit keinem Tab verbunden
Bitte prüfe:
Ob die Erweiterung bereits in
chrome://extensionsgeladen istOb in Chrome eine normale Webseite geöffnet ist
Ob du nur auf
about:blankstehst
Du kannst auch Folgendes ausführen:
agent-browser-mcp doctor2. connected_tabs ist 0
Dies hat normalerweise einen der folgenden Gründe:
Die Erweiterung wurde nicht erfolgreich geladen
Es gibt aktuell keine normale Webseite
Die Erweiterung wurde gerade neu geladen, die Seite wurde noch nicht aktualisiert
Empfehlung:
Aktuelle Webseite aktualisieren
Eine neue normale URL öffnen
doctorerneut ausführen
3. Physische Eingaben funktionieren unter macOS nicht
Bitte erteile dem Terminal / MCP-Client die entsprechenden Systemberechtigungen:
Bedienungshilfen (Accessibility)
Bildschirmaufnahme (falls du Desktop-Screenshots benötigst)
4. hermes mcp test agent_browser schlägt fehl
Bitte prüfe:
Ob das Paket erfolgreich installiert wurde
Ob
agent-browser-mcpim PATH enthalten istOb die Hermes-Konfiguration korrekt ist
Führe
agent-browser-mcp doctoraus, um die Diagnoseausgabe zu sehen
Danksagung
Die Browser-Automatisierungsfunktionen dieses Projekts wurden aus dem Browser-Stack von GenericAgent extrahiert und als MCP-Dienst neu verpackt.
Besonderer Dank gilt dem GenericAgent-Projekt und seinem Autor für die ursprünglichen Implementierungsideen und die Kernfunktionen.
Ursprüngliche Projektadresse:
Die folgenden Teile in diesem Projekt stammen von oder wurden von GenericAgent adaptiert:
TMWebDriver.pysimphtml.pytmwd_cdp_bridgeChrome-Erweiterungsressourcen
Wenn du auf Basis dieses Projekts weiterentwickelst oder veröffentlichst, wird empfohlen, die Danksagung und den Quellenhinweis für GenericAgent beizubehalten.
Lizenz
MIT
Resources
Unclaimed servers have limited discoverability.
Looking for Admin?
If you are the server author, to access and configure the admin panel.
Latest Blog Posts
MCP directory API
We provide all the information about MCP servers via our MCP API.
curl -X GET 'https://glama.ai/api/mcp/v1/servers/335234131/agent-browser-mcp'
If you have feedback or need assistance with the MCP directory API, please join our Discord server