Integrations
Uses .env files to securely store and access environment variables, particularly for API keys like the Mistral AI API key
Specialized scraping capabilities for GitHub repositories, focusing on extracting README content and code blocks
Searches Google and returns top search results for any query, allowing the agent to find relevant information across the web
🤖 Browser-Automatisierungsagent
Ein leistungsstarkes Browser-Automatisierungstool mit MCP (Model Controlled Program), das Web-Scraping-Funktionen mit LLM-gestützter Intelligenz kombiniert. Dieser Agent kann Google durchsuchen, Webseiten aufrufen und Inhalte von verschiedenen Websites wie GitHub, Stack Overflow und Dokumentationsseiten intelligent extrahieren.
🚀 Funktionen
- 🔍 Google-Suchintegration : Findet und ruft die besten Suchergebnisse für jede Abfrage ab
- 🕸️ Intelligentes Web Scraping : Maßgeschneiderte Scraping-Strategien für verschiedene Website-Typen:
- 📂 GitHub-Repositorys
- 💬 Fragen und Antworten zu Stack Overflow
- 📚 Dokumentationsseiten
- 🌐 Generische Websites
- 🧠 KI-gestützte Verarbeitung : Verwendet Mistral AI zum Verstehen und Verarbeiten von Scraped-Inhalten
- 🥷 Stealth-Modus : Implementiert den Browser-Fingerabdruckschutz, um eine Erkennung zu vermeiden
- 💾 Inhaltsspeicherung : Speichert automatisch sowohl Screenshots als auch Textinhalte von Scraped-Seiten
🏗️ Architektur
Dieses Projekt verwendet eine Client-Server-Architektur, die von MCP unterstützt wird:
- 🖥️ Server : Bewältigt Browserautomatisierung und Web-Scraping-Aufgaben
- 👤 Client : Stellt die KI-Schnittstelle mit Mistral AI und LangGraph bereit
- 📡 Kommunikation : Verwendet stdio für die Client-Server-Kommunikation
⚙️ Voraussetzungen
- 🐍 Python 3.8+
- 🎭 Dramatiker
- 🧩 MCP (Modellgesteuertes Programm)
- 🔑 Mistral AI API-Schlüssel
📥 Installation
- Klonen Sie das Repository:
- Installieren Sie Abhängigkeiten:
- Installieren Sie Playwright-Browser:
- Erstellen Sie eine
.env
Datei im Projektstammverzeichnis und fügen Sie Ihren Mistral AI-API-Schlüssel hinzu:
📋 Verwendung
Ausführen des Servers
Ausführen des Clients
Beispielinteraktion
Sobald sowohl der Server als auch der Client ausgeführt werden:
- Geben Sie Ihre Abfrage ein, wenn Sie dazu aufgefordert werden
- Der Agent wird:
- 🔍 Suchen Sie bei Google nach relevanten Ergebnissen
- 🧭 Navigieren Sie zum Top-Ergebnis
- 📊 Scrapen Sie Inhalte basierend auf dem Website-Typ
- 📸 Screenshots und Inhalte in Dateien speichern
- 📤 Verarbeitete Informationen zurückgeben
🛠️ Werkzeugfunktionen
get_top_google_url
🔍 Durchsucht Google und gibt die URL mit dem höchsten Ergebnis für eine bestimmte Abfrage zurück.
browse_and_scrape
🌐 Navigiert zu einer URL und kratzt Inhalte basierend auf dem Websitetyp.
scrape_github
📂 Spezialisiert auf das Extrahieren von README-Inhalten und Codeblöcken aus GitHub-Repositorys.
scrape_stackoverflow
💬 Extrahiert Fragen, Antworten, Kommentare und Codeblöcke von Stack Overflow-Seiten.
scrape_documentation
📚 Optimiert für das Extrahieren von Dokumentationsinhalten und Codebeispielen.
scrape_generic
🌐 Extrahiert Absatztext und Codeblöcke von generischen Websites.
📁 Dateistruktur
📤 Ausgabedateien
Der Agent generiert zwei Arten von Ausgabedateien mit Zeitstempeln:
- 📸
final_page_YYYYMMDD_HHMMSS.png
: Screenshot des endgültigen Seitenstatus - 📄
scraped_content_YYYYMMDD_HHMMSS.txt
: Extrahierter Textinhalt von der Seite
⚙️ Anpassung
Sie können die folgenden Parameter im Code ändern:
- 🖥️ Browserfenstergröße: Passen Sie
width
undheight
inbrowse_and_scrape
- 👻 Headless-Modus: Setzen Sie
headless=True
für unsichtbaren Browserbetrieb - 🔢 Anzahl der Google-Ergebnisse: Ändern Sie
num_results
inget_top_google_url
❓ Fehlerbehebung
- 🔌 Verbindungsprobleme : Stellen Sie sicher, dass Server und Client in separaten Terminals ausgeführt werden
- 🎭 Playwright-Fehler : Stellen Sie sicher, dass Browser mit
playwright install
installiert sind - 🔑 API-Schlüsselfehler : Überprüfen Sie, ob Ihr Mistral-API-Schlüssel in der
.env
Datei korrekt festgelegt ist - 🛣️ Pfadfehler : Aktualisieren Sie bei Bedarf den Pfad zu
main.py
inclient.py
📜 Lizenz
🤝 Beitragen
Beiträge sind willkommen! Senden Sie gerne einen Pull Request.
Erstellt mit 🧩 MCP, 🎭 Playwright und 🧠 Mistral AI
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
Ermöglicht intelligentes Web Scraping durch ein Browser-Automatisierungstool, das Google durchsuchen, zu Webseiten navigieren und Inhalte von verschiedenen Websites extrahieren kann, darunter GitHub, Stack Overflow und Dokumentationsseiten.
Related MCP Servers
- AsecurityAlicenseAqualityEnables web content scanning and analysis by fetching, analyzing, and extracting information from web pages using tools like page fetching, link extraction, site crawling, and more.Last updated -67TypeScriptMIT License
- AsecurityFlicenseAqualityEnables browser automation using Python scripts, offering operations like taking webpage screenshots, retrieving HTML content, and executing JavaScript.Last updated -418Python
- AsecurityAlicenseAqualityA server that provides web scraping and intelligent content searching capabilities using the Firecrawl API, enabling AI agents to extract structured data from websites and perform content searches.Last updated -52TypeScriptMIT License
- AsecurityFlicenseAqualityA server that provides tools to scrape websites and extract structured data from them using Firecrawl's APIs, supporting both basic website scraping in multiple formats and custom schema-based data extraction.Last updated -2JavaScript