🤖 Browser-Automatisierungsagent
Ein leistungsstarkes Browser-Automatisierungstool mit MCP (Model Controlled Program), das Web-Scraping-Funktionen mit LLM-gestützter Intelligenz kombiniert. Dieser Agent kann Google durchsuchen, Webseiten aufrufen und Inhalte von verschiedenen Websites wie GitHub, Stack Overflow und Dokumentationsseiten intelligent extrahieren.
🚀 Funktionen
- 🔍 Google-Suchintegration : Findet und ruft die besten Suchergebnisse für jede Abfrage ab
- 🕸️ Intelligentes Web Scraping : Maßgeschneiderte Scraping-Strategien für verschiedene Website-Typen:
- 📂 GitHub-Repositorys
- 💬 Fragen und Antworten zu Stack Overflow
- 📚 Dokumentationsseiten
- 🌐 Generische Websites
- 🧠 KI-gestützte Verarbeitung : Verwendet Mistral AI zum Verstehen und Verarbeiten von Scraped-Inhalten
- 🥷 Stealth-Modus : Implementiert den Browser-Fingerabdruckschutz, um eine Erkennung zu vermeiden
- 💾 Inhaltsspeicherung : Speichert automatisch sowohl Screenshots als auch Textinhalte von Scraped-Seiten
🏗️ Architektur
Dieses Projekt verwendet eine Client-Server-Architektur, die von MCP unterstützt wird:
- 🖥️ Server : Bewältigt Browserautomatisierung und Web-Scraping-Aufgaben
- 👤 Client : Stellt die KI-Schnittstelle mit Mistral AI und LangGraph bereit
- 📡 Kommunikation : Verwendet stdio für die Client-Server-Kommunikation
⚙️ Voraussetzungen
- 🐍 Python 3.8+
- 🎭 Dramatiker
- 🧩 MCP (Modellgesteuertes Programm)
- 🔑 Mistral AI API-Schlüssel
📥 Installation
- Klonen Sie das Repository:
- Installieren Sie Abhängigkeiten:
- Installieren Sie Playwright-Browser:
- Erstellen Sie eine
.env
Datei im Projektstammverzeichnis und fügen Sie Ihren Mistral AI-API-Schlüssel hinzu:
📋 Verwendung
Ausführen des Servers
Ausführen des Clients
Beispielinteraktion
Sobald sowohl der Server als auch der Client ausgeführt werden:
- Geben Sie Ihre Abfrage ein, wenn Sie dazu aufgefordert werden
- Der Agent wird:
- 🔍 Suchen Sie bei Google nach relevanten Ergebnissen
- 🧭 Navigieren Sie zum Top-Ergebnis
- 📊 Scrapen Sie Inhalte basierend auf dem Website-Typ
- 📸 Screenshots und Inhalte in Dateien speichern
- 📤 Verarbeitete Informationen zurückgeben
🛠️ Werkzeugfunktionen
get_top_google_url
🔍 Durchsucht Google und gibt die URL mit dem höchsten Ergebnis für eine bestimmte Abfrage zurück.
browse_and_scrape
🌐 Navigiert zu einer URL und kratzt Inhalte basierend auf dem Websitetyp.
scrape_github
📂 Spezialisiert auf das Extrahieren von README-Inhalten und Codeblöcken aus GitHub-Repositorys.
scrape_stackoverflow
💬 Extrahiert Fragen, Antworten, Kommentare und Codeblöcke von Stack Overflow-Seiten.
scrape_documentation
📚 Optimiert für das Extrahieren von Dokumentationsinhalten und Codebeispielen.
scrape_generic
🌐 Extrahiert Absatztext und Codeblöcke von generischen Websites.
📁 Dateistruktur
📤 Ausgabedateien
Der Agent generiert zwei Arten von Ausgabedateien mit Zeitstempeln:
- 📸
final_page_YYYYMMDD_HHMMSS.png
: Screenshot des endgültigen Seitenstatus - 📄
scraped_content_YYYYMMDD_HHMMSS.txt
: Extrahierter Textinhalt von der Seite
⚙️ Anpassung
Sie können die folgenden Parameter im Code ändern:
- 🖥️ Browserfenstergröße: Passen Sie
width
undheight
inbrowse_and_scrape
- 👻 Headless-Modus: Setzen Sie
headless=True
für unsichtbaren Browserbetrieb - 🔢 Anzahl der Google-Ergebnisse: Ändern Sie
num_results
inget_top_google_url
❓ Fehlerbehebung
- 🔌 Verbindungsprobleme : Stellen Sie sicher, dass Server und Client in separaten Terminals ausgeführt werden
- 🎭 Playwright-Fehler : Stellen Sie sicher, dass Browser mit
playwright install
installiert sind - 🔑 API-Schlüsselfehler : Überprüfen Sie, ob Ihr Mistral-API-Schlüssel in der
.env
Datei korrekt festgelegt ist - 🛣️ Pfadfehler : Aktualisieren Sie bei Bedarf den Pfad zu
main.py
inclient.py
📜 Lizenz
🤝 Beitragen
Beiträge sind willkommen! Senden Sie gerne einen Pull Request.
Erstellt mit 🧩 MCP, 🎭 Playwright und 🧠 Mistral AI
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
Ermöglicht intelligentes Web Scraping durch ein Browser-Automatisierungstool, das Google durchsuchen, zu Webseiten navigieren und Inhalte von verschiedenen Websites extrahieren kann, darunter GitHub, Stack Overflow und Dokumentationsseiten.
Related MCP Servers
- AsecurityAlicenseAqualityEnables web content scanning and analysis by fetching, analyzing, and extracting information from web pages using tools like page fetching, link extraction, site crawling, and more.Last updated -67TypeScriptMIT License
- AsecurityFlicenseAqualityEnables browser automation using Python scripts, offering operations like taking webpage screenshots, retrieving HTML content, and executing JavaScript.Last updated -418Python
- AsecurityAlicenseAqualityA server that provides web scraping and intelligent content searching capabilities using the Firecrawl API, enabling AI agents to extract structured data from websites and perform content searches.Last updated -52TypeScriptMIT License
- AsecurityFlicenseAqualityA server that provides tools to scrape websites and extract structured data from them using Firecrawl's APIs, supporting both basic website scraping in multiple formats and custom schema-based data extraction.Last updated -2JavaScript