Fetcher MCP
MCP-Server zum Abrufen von Webseiteninhalten mit dem Headless-Browser Playwright.
Vorteile
- JavaScript-Unterstützung : Im Gegensatz zu herkömmlichen Web-Scrapern verwendet Fetcher MCP Playwright zur Ausführung von JavaScript und ist daher in der Lage, dynamische Webinhalte und moderne Webanwendungen zu verarbeiten.
- Intelligente Inhaltsextraktion : Der integrierte Lesbarkeitsalgorithmus extrahiert automatisch den Hauptinhalt von Webseiten und entfernt Anzeigen, Navigation und andere nicht wesentliche Elemente.
- Flexibles Ausgabeformat : Unterstützt sowohl HTML- als auch Markdown-Ausgabeformate und erleichtert so die Integration in verschiedene nachgelagerte Anwendungen.
- Parallele Verarbeitung : Das Tool
fetch_urls
ermöglicht das gleichzeitige Abrufen mehrerer URLs und verbessert so die Effizienz von Stapelverarbeitungsvorgängen erheblich. - Ressourcenoptimierung : Blockiert automatisch unnötige Ressourcen (Bilder, Stylesheets, Schriftarten, Medien), um die Bandbreitennutzung zu reduzieren und die Leistung zu verbessern.
- Robuste Fehlerbehandlung : Eine umfassende Fehlerbehandlung und -protokollierung gewährleistet einen zuverlässigen Betrieb auch bei problematischen Webseiten.
- Konfigurierbare Parameter : Feinkörnige Kontrolle über Timeouts, Inhaltsextraktion und Ausgabeformatierung für verschiedene Anwendungsfälle.
Schnellstart
Direkt mit npx ausführen:
Ersteinrichtung – installieren Sie den erforderlichen Browser, indem Sie den folgenden Befehl in Ihrem Terminal ausführen:
HTTP- und SSE-Transport
Verwenden Sie den Parameter --transport=http
, um sowohl die Streamable-HTTP-Endpunkt- als auch die SSE-Endpunktdienste gleichzeitig zu starten:
Nach dem Start stellt der Server die folgenden Endpunkte bereit:
/mcp
– Streambarer HTTP-Endpunkt (modernes MCP-Protokoll)/sse
– SSE-Endpunkt (altes MCP-Protokoll)
Kunden können je nach Bedarf auswählen, welche Verbindungsmethode sie verwenden möchten.
Debug-Modus
Führen Sie es mit der Option --debug
aus, um das Browserfenster zum Debuggen anzuzeigen:
Konfiguration MCP
Konfigurieren Sie diesen MCP-Server in Claude Desktop:
Unter MacOS: ~/Library/Application Support/Claude/claude_desktop_config.json
Unter Windows: %APPDATA%/Claude/claude_desktop_config.json
Docker-Bereitstellung
Ausführen mit Docker
Bereitstellen mit Docker Compose
Erstellen Sie eine docker-compose.yml
Datei:
Führen Sie dann Folgendes aus:
Merkmale
fetch_url
- Ruft Webseiteninhalte von einer angegebenen URL ab- Verwendet den Headless-Browser Playwright zum Parsen von JavaScript
- Unterstützt die intelligente Extraktion von Hauptinhalten und die Konvertierung in Markdown
- Unterstützt die folgenden Parameter:
url
: Die URL der abzurufenden Webseite (erforderlicher Parameter)timeout
: Timeout für das Laden der Seite in Millisekunden, Standard ist 30000 (30 Sekunden)waitUntil
: Gibt an, wann die Navigation als abgeschlossen gilt. Optionen: „load“, „domcontentloaded“, „networkidle“, „commit“, Standard ist „load“.extractContent
: Gibt an, ob der Hauptinhalt intelligent extrahiert werden soll. Der Standardwert ist „true“.maxLength
: Maximale Länge des zurückgegebenen Inhalts (in Zeichen), Standard ist keine BegrenzungreturnHtml
: Ob HTML-Inhalt anstelle von Markdown zurückgegeben werden soll, Standard ist „false“waitForNavigation
: Ob nach dem ersten Laden der Seite auf weitere Navigation gewartet werden soll (nützlich für Websites mit Anti-Bot-Verifizierung), Standard ist „false“navigationTimeout
: Maximale Wartezeit für weitere Navigation in Millisekunden, Standard ist 10000 (10 Sekunden)disableMedia
: Ob Medienressourcen (Bilder, Stylesheets, Schriftarten, Medien) deaktiviert werden sollen, der Standardwert ist „true“.debug
: Ob der Debug-Modus aktiviert werden soll (Browserfenster anzeigen), überschreibt das Befehlszeilenflag --debug, falls angegeben
fetch_urls
- Paralleles Batch-Abrufen von Webseiteninhalten von mehreren URLs- Verwendet paralleles Abrufen mehrerer Registerkarten für eine verbesserte Leistung
- Gibt kombinierte Ergebnisse mit klarer Trennung zwischen den Webseiten zurück
- Unterstützt die folgenden Parameter:
urls
: Array der abzurufenden URLs (erforderlicher Parameter)- Andere Parameter sind dieselben wie bei
fetch_url
Tipps
Umgang mit speziellen Website-Szenarien
Umgang mit Anti-Crawler-Mechanismen
- Warten Sie, bis der Ladevorgang abgeschlossen ist : Fügen Sie bei Websites, die CAPTCHA, Weiterleitungen oder andere Überprüfungsmechanismen verwenden, Folgendes in Ihre Eingabeaufforderung ein:Dabei wird der Parameter
waitForNavigation: true
verwendet. - Timeout-Dauer erhöhen : Für Websites, die langsam laden:Dadurch werden sowohl
timeout
als auchnavigationTimeout
-Parameter entsprechend angepasst.
Anpassungen beim Inhaltsabruf
- Ursprüngliche HTML-Struktur beibehalten : Wenn die Inhaltsextraktion fehlschlagen könnte:Legt
extractContent: false
undreturnHtml: true
. - Vollständigen Seiteninhalt abrufen : Wenn der extrahierte Inhalt zu begrenzt ist:Legt
extractContent: false
. - Inhalt als HTML zurückgeben : Wenn das HTML-Format anstelle des Standard-Markdowns benötigt wird:Legt
returnHtml: true
.
Debuggen und Authentifizierung
Aktivieren des Debug-Modus
- Dynamische Debug-Aktivierung : So zeigen Sie das Browserfenster während eines bestimmten Abrufvorgangs an:Dadurch wird
debug: true
festgelegt, auch wenn der Server ohne das Flag--debug
gestartet wurde.
Verwenden von benutzerdefinierten Cookies zur Authentifizierung
- Manuelle Anmeldung : So melden Sie sich mit Ihren eigenen Anmeldeinformationen an:Legt
debug: true
oder verwendet das Flag--debug
, wodurch das Browserfenster für die manuelle Anmeldung geöffnet bleibt. - Interaktion mit dem Debug-Browser : Wenn der Debug-Modus aktiviert ist:
- Das Browserfenster bleibt geöffnet
- Sie können sich mit Ihren Anmeldeinformationen manuell bei der Website anmelden
- Nach Abschluss der Anmeldung werden die Inhalte mit Ihrer authentifizierten Sitzung abgerufen
- Debug für bestimmte Anfragen aktivieren : Auch wenn der Server bereits läuft, können Sie den Debug-Modus für eine bestimmte Anfrage aktivieren:Legt
debug: true
nur für diese spezielle Anfrage fest und öffnet das Browserfenster für die manuelle Anmeldung.
Entwicklung
Abhängigkeiten installieren
Installieren Sie den Playwright Browser
Installieren Sie die für Playwright erforderlichen Browser:
Erstellen Sie den Server
Debuggen
Verwenden Sie MCP Inspector zum Debuggen:
Sie können zum Debuggen auch den sichtbaren Browsermodus aktivieren:
Ähnliche Projekte
- g-search-mcp : Ein leistungsstarker MCP-Server für die Google-Suche, der die parallele Suche mit mehreren Schlüsselwörtern gleichzeitig ermöglicht. Ideal für Batch-Suchvorgänge und Datenerfassung.
Lizenz
Lizenziert unter der MIT-Lizenz
You must be authenticated.
local-only server
The server can only run on the client's local machine because it depends on local resources.
Tools
Ein MCP-Server, der Webseiteninhalte mit dem Headless-Browser Playwright abruft und in der Lage ist, Hauptinhalte zu extrahieren und in das Markdown-Format zu konvertieren.
- Vorteile
- Schnellstart
- Konfiguration MCP
- Docker-Bereitstellung
- Merkmale
- Tipps
- Entwicklung
- Debuggen
- Ähnliche Projekte
- Lizenz
Related Resources
Related MCP Servers
- AsecurityAlicenseAqualityA powerful MCP server for fetching and transforming web content into various formats (HTML, JSON, Markdown, Plain Text) with ease.Last updated -414612TypeScriptMIT License
- AsecurityAlicenseAqualityAn MCP server for fetching and transforming web content into various formats.Last updated -44PythonMIT License
- -securityAlicense-qualityA MCP server that provides browser automation tools, allowing users to navigate websites, take screenshots, click elements, fill forms, and execute JavaScript through Playwright.Last updated -PythonApache 2.0
- -securityFlicense-qualityAn MCP server that extracts meaningful content from websites and converts HTML to high-quality Markdown, using Mozilla's Readability engine.Last updated -11,9932JavaScript