Skip to main content
Glama

MCP Browser Use Server

by JovaniPink

MCP-Server mit Browsernutzung

MCP-Server zur Browsernutzung .

Überblick

Dieses Repository enthält den Server für die Browser-Use -Bibliothek. Diese stellt ein leistungsstarkes Browser-Automatisierungssystem bereit, das KI-Agenten die Interaktion mit Webbrowsern über natürliche Sprache ermöglicht. Der Server basiert auf dem Model Context Protocol (MCP) von Anthropic und bietet eine nahtlose Integration mit der Browser-Use- Bibliothek.

Merkmale

  1. Browsersteuerung
  • Automatisierte Browserinteraktionen über natürliche Sprache
  • Navigations-, Formularausfüll-, Klick- und Scrollfunktionen
  • Tab-Verwaltung und Screenshot-Funktionalität
  • Cookie- und Statusverwaltung
  1. Agentensystem
  • Benutzerdefinierte Agentimplementierung in custom_agent.py
  • Bildbasierte Elementerkennung
  • Strukturierte JSON-Antworten für Aktionen
  • Verwaltung und Zusammenfassung des Nachrichtenverlaufs
  1. Konfiguration
  • Umgebungsbasierte Konfiguration für API-Schlüssel und -Einstellungen
  • Chrome-Browsereinstellungen (Debug-Port, Persistenz)
  • Modellanbieterauswahl und Parameter

Abhängigkeiten

Dieses Projekt basiert auf den folgenden Python-Paketen:

PaketVersionBeschreibung
Kissen>=10.1.0Python Imaging Library (PIL)-Fork, der Ihrem Python-Interpreter Bildverarbeitungsfunktionen hinzufügt.
Browser-Nutzung==0.1.19Ein leistungsstarkes Browser-Automatisierungssystem, das KI-Agenten die Interaktion mit Webbrowsern über natürliche Sprache ermöglicht. Die Kernbibliothek, die die Browser-Automatisierungsfunktionen dieses Projekts unterstützt.
Fastapi>=0,115,6Modernes, schnelles (leistungsstarkes) Webframework zum Erstellen von APIs mit Python 3.7+ basierend auf standardmäßigen Python-Typhinweisen. Wird zum Erstellen des Servers verwendet, der die Funktionalität des Agenten bereitstellt.
fastmcp>=0,4,1Ein Framework, das FastAPI zum Erstellen von MCP-Servern (Model Context Protocol) umschließt.
Lehrer>=1,7,2Bibliothek zur strukturierten Ausgabeaufforderung und Validierung mit OpenAI-Modellen. Ermöglicht das Extrahieren strukturierter Daten aus Modellantworten.
Langkette>=0,3,14Framework für die Entwicklung von Anwendungen mit großen Sprachmodellen (LLMs). Bietet Tools zum Verketten verschiedener Sprachmodellkomponenten und zur Interaktion mit verschiedenen APIs und Datenquellen.
langchain-google-genai>=2.1.1LangChain-Integration für Google GenAI-Modelle, die die Nutzung der generativen KI-Funktionen von Google innerhalb des LangChain-Frameworks ermöglicht.
Langchain-Openai>=0,2,14LangChain-Integrationen mit OpenAI-Modellen. Ermöglicht die Verwendung von OpenAI-Modellen (wie GPT-4) innerhalb des LangChain-Frameworks. Wird in diesem Projekt für die Interaktion mit den Sprach- und Bildmodellen von OpenAI verwendet.
Langkette-Ollama>=0,2,2Langchain-Integration für Ollama, die die lokale Ausführung von LLMs ermöglicht.
openai>=1,59,5Offizielle Python-Clientbibliothek für die OpenAI-API. Wird zur direkten Interaktion mit OpenAI-Modellen verwendet (bei Bedarf zusätzlich zu LangChain).
python-dotenv>=1.0.1Liest Schlüssel-Wert-Paare aus einer .env Datei und setzt sie als Umgebungsvariablen. Vereinfacht die lokale Entwicklung und das Konfigurationsmanagement.
pydantisch>=2.10.5Datenvalidierung und Einstellungsverwaltung mithilfe von Python-Typannotationen. Ermöglicht die Laufzeitdurchsetzung von Typen und die automatische Modellerstellung. Unverzichtbar für die Definition strukturierter Datenmodelle im Agenten.
pyperclip>=1.9.0Plattformübergreifendes Python-Modul zum Kopieren und Einfügen der Zwischenablagefunktionen.
Uvicorn>=0,22,0ASGI-Webserverimplementierung für Python. Wird zur Bereitstellung der FastAPI-Anwendung verwendet.

Komponenten

Ressourcen

Der Server implementiert ein Browser-Automatisierungssystem mit:

  • Integration mit Browser-Nutzungsbibliothek für erweiterte Browsersteuerung
  • Benutzerdefinierte Browser-Automatisierungsfunktionen
  • Agentenbasiertes Interaktionssystem mit Vision-Funktionen
  • Persistente Zustandsverwaltung
  • Anpassbare Modelleinstellungen

Anforderungen

  • Betriebssysteme (Linux, macOS, Windows; wir haben nicht für Docker oder Microsoft WSL getestet)
  • Python 3.11 oder höher
  • uv (schneller Python-Paketinstaller)
  • Chrome/Chromium-Browser
  • Claude Desktop

Schnellstart

Claude Desktop

Unter MacOS: ~/Library/Application\ Support/Claude/claude_desktop_config.json Unter Windows: %APPDATA%/Claude/claude_desktop_config.json

Installation über Smithery

So installieren Sie Browser Use für Claude Desktop automatisch über Smithery :

npx -y @smithery/cli install @JovaniPink/mcp-browser-use --client claude
"mcpServers": { "mcp_server_browser_use": { "command": "uvx", "args": [ "mcp-server-browser-use", ], "env": { "OPENAI_ENDPOINT": "https://api.openai.com/v1", "OPENAI_API_KEY": "", "ANTHROPIC_API_KEY": "", "GOOGLE_API_KEY": "", "AZURE_OPENAI_ENDPOINT": "", "AZURE_OPENAI_API_KEY": "", // "DEEPSEEK_ENDPOINT": "https://api.deepseek.com", // "DEEPSEEK_API_KEY": "", // Set to false to disable anonymized telemetry "ANONYMIZED_TELEMETRY": "false", // Chrome settings "CHROME_PATH": "", "CHROME_USER_DATA": "", "CHROME_DEBUGGING_PORT": "9222", "CHROME_DEBUGGING_HOST": "localhost", // Set to true to keep browser open between AI tasks "CHROME_PERSISTENT_SESSION": "false", // Model settings "MCP_MODEL_PROVIDER": "anthropic", "MCP_MODEL_NAME": "claude-3-5-sonnet-20241022", "MCP_TEMPERATURE": "0.3", "MCP_MAX_STEPS": "30", "MCP_USE_VISION": "true", "MCP_MAX_ACTIONS_PER_STEP": "5", "MCP_TOOL_CALL_IN_CONTENT": "true" } } }

Umgebungsvariablen

Wichtige Umgebungsvariablen:

# API Keys ANTHROPIC_API_KEY=anthropic_key # Chrome Configuration # Optional: Path to Chrome executable CHROME_PATH=/path/to/chrome # Optional: Chrome user data directory CHROME_USER_DATA=/path/to/user/data # Default: 9222 CHROME_DEBUGGING_PORT=9222 # Default: localhost CHROME_DEBUGGING_HOST=localhost # Keep browser open between tasks CHROME_PERSISTENT_SESSION=false # Model Settings # Options: anthropic, openai, azure, deepseek MCP_MODEL_PROVIDER=anthropic # Model name MCP_MODEL_NAME=claude-3-5-sonnet-20241022 MCP_TEMPERATURE=0.3 MCP_MAX_STEPS=30 MCP_USE_VISION=true MCP_MAX_ACTIONS_PER_STEP=5

Entwicklung

Aufstellen

  1. Klonen Sie das Repository:
git clone https://github.com/JovaniPink/mcp-browser-use.git cd mcp-browser-use
  1. Virtuelle Umgebung erstellen und aktivieren:
python -m venv .venv source .venv/bin/activate # On Windows: .venv\Scripts\activate
  1. Installieren Sie Abhängigkeiten:
uv sync
  1. Starten Sie den Server
uv run mcp-browser-use

Debuggen

Verwenden Sie zum Debuggen den MCP Inspector :

npx @modelcontextprotocol/inspector uv --directory /path/to/project run mcp-server-browser-use

Der Inspector zeigt eine URL für die Debugging-Schnittstelle an.

Browseraktionen

Der Server unterstützt verschiedene Browseraktionen durch natürliche Sprache:

  • Navigation: Zu URLs gehen, zurück/vorwärts, aktualisieren
  • Interaktion: Klicken, tippen, scrollen, schweben
  • Formulare: Formulare ausfüllen, absenden, Optionen auswählen
  • Status: Seiteninhalt abrufen, Screenshots machen
  • Tabs: Tabs erstellen, schließen, zwischen Tabs wechseln
  • Vision: Elemente anhand der visuellen Erscheinung finden
  • Cookies und Speicher: Browserstatus verwalten

Sicherheit

Ich möchte darauf hinweisen, dass einige Chrome-Einstellungen die Steuerung des Browsers durch den Server ermöglichen. Dies stellt ein Sicherheitsrisiko dar und sollte mit Vorsicht verwendet werden. Der Server ist nicht für den Einsatz in einer Produktionsumgebung vorgesehen.

Sicherheitsdetails: SECURITY.MD

Beitragen

Wir freuen uns über Beiträge zu diesem Projekt. Bitte folgen Sie diesen Schritten:

  1. Forken Sie dieses Repository.
  2. Erstellen Sie Ihren Feature-Zweig: git checkout -b my-new-feature .
  3. Übernehmen Sie Ihre Änderungen: git commit -m 'Add some feature' .
  4. Pushen zum Zweig: git push origin my-new-feature .
  5. Senden Sie eine Pull-Anfrage.

Bei größeren Änderungen öffnen Sie zunächst ein Problem, um zu besprechen, was Sie ändern möchten. Bitte aktualisieren Sie die Tests entsprechend, um die vorgenommenen Änderungen zu berücksichtigen.

Install Server
A
security – no known vulnerabilities
F
license - not found
A
quality - confirmed to work

local-only server

The server can only run on the client's local machine because it depends on local resources.

Ermöglicht KI-Agenten die Interaktion mit Webbrowsern unter Verwendung natürlicher Sprache und bietet automatisiertes Browsen, Ausfüllen von Formularen, visuelle Elementerkennung und strukturierte JSON-Antworten für eine systematische Browsersteuerung.

  1. Überblick
    1. Merkmale
      1. Abhängigkeiten
        1. Komponenten
          1. Ressourcen
          2. Anforderungen
          3. Schnellstart
          4. Umgebungsvariablen
        2. Entwicklung
          1. Aufstellen
          2. Debuggen
        3. Browseraktionen
          1. Sicherheit
            1. Beitragen

              Related MCP Servers

              • A
                security
                A
                license
                A
                quality
                Facilitates browser automation with custom capabilities and agent-based interactions, integrated through the browser-use library.
                Last updated -
                1
                646
                Python
                MIT License
                • Apple
              • -
                security
                F
                license
                -
                quality
                Enables AI agents to control web browsers via a standardized interface for operations like launching, interacting with, and closing browsers.
                Last updated -
                0
                JavaScript
              • -
                security
                A
                license
                -
                quality
                AI-driven browser automation server that implements the Model Context Protocol to enable natural language control of web browsers for tasks like navigation, form filling, and visual interaction.
                Last updated -
                1
                Python
                MIT License
                • Apple
              • -
                security
                A
                license
                -
                quality
                Empowers AI agents to perform web browsing, automation, and scraping tasks with minimal supervision using natural language instructions and Selenium.
                Last updated -
                1
                Python
                Apache 2.0
                • Apple

              View all related MCP servers

              MCP directory API

              We provide all the information about MCP servers via our MCP API.

              curl -X GET 'https://glama.ai/api/mcp/v1/servers/JovaniPink/mcp-browser-use'

              If you have feedback or need assistance with the MCP directory API, please join our Discord server