⚠️ HINWEIS
MCP-SERVER WIRD DERZEIT ENTWICKELT
NICHT BEREIT FÜR DEN PRODUKTIONSEINSATZ
WIRD AKTUALISIERT, WENN BETRIEBSBEREIT
Crawl4AI MCP-Server
🚀 Leistungsstarker MCP-Server für Crawl4AI – Ermöglichen Sie KI-Assistenten den Zugriff auf Web Scraping, Crawling und Deep Research über das Model Context Protocol. Schneller und effizienter als FireCrawl!
Überblick
Dieses Projekt implementiert einen benutzerdefinierten Model Context Protocol (MCP)-Server, der mit Crawl4AI, einer Open-Source-Bibliothek für Web Scraping und Crawling, integriert ist. Der Server wird als Remote-MCP-Server auf CloudFlare Workers bereitgestellt, sodass KI-Assistenten wie Claude auf die leistungsstarken Web Scraping-Funktionen von Crawl4AI zugreifen können.
Related MCP server: Firecrawl MCP Server
Dokumentation
Ausführliche Informationen zu diesem Projekt finden Sie in der folgenden Dokumentation:
Migrationsplan – Detaillierter Plan für die Migration von Firecrawl zu Crawl4AI
Verbesserte Architektur – Multi-Tenant-Architektur mit der Flexibilität eines Cloud-Anbieters
Implementierungshandbuch – Technische Implementierungsdetails und Codebeispiele
Codebasisvereinfachung – Details zur Codevereinfachung und den implementierten Best Practices
Merkmale
Webdatenerfassung
🌐 Scraping einzelner Webseiten : Extrahieren Sie Inhalte aus einzelnen Webseiten
🕸️ Web-Crawling : Crawlen Sie Websites mit konfigurierbarer Tiefe und Seitenbeschränkungen
🗺️ URL-Erkennung : Ordnen Sie URLs von einem Ausgangspunkt aus zu und erkennen Sie sie
🕸️ Asynchrones Crawling : Effizientes Crawlen ganzer Websites
Inhaltsverarbeitung
🔍 Gründliche Recherche : Führen Sie umfassende Recherchen über mehrere Seiten hinweg durch
📊 Strukturierte Datenextraktion : Extrahieren Sie spezifische Daten mithilfe von CSS-Selektoren oder LLM-basierter Extraktion
🔎 Inhaltssuche : Durchsuchen Sie zuvor gecrawlte Inhalte
Integration und Sicherheit
🔄 MCP-Integration : Nahtlose Integration mit MCP-Clients (Claude Desktop usw.)
🔒 OAuth-Authentifizierung : Sicherer Zugriff mit entsprechender Autorisierung
🔒 Authentifizierungsoptionen : Sicherer Zugriff über OAuth oder API-Schlüssel (Bearer-Token)
⚡ Hohe Leistung : Optimiert für Geschwindigkeit und Effizienz
Projektstruktur
Erste Schritte
Voraussetzungen
Installation
Klonen Sie das Repository:
git clone https://github.com/BjornMelin/crawl4ai-mcp-server.git cd crawl4ai-mcp-serverInstallieren Sie Abhängigkeiten:
npm installRichten Sie den CloudFlare KV-Namespace ein:
wrangler kv:namespace create CRAWL_DATAAktualisieren Sie
wrangler.tomlmit der KV-Namespace-ID:kv_namespaces = [ { binding = "CRAWL_DATA", id = "your-namespace-id" } ]
Entwicklung
Lokale Entwicklung
Starten Sie den Entwicklungsserver:
npm run devDer Server ist unter http://localhost:8787 verfügbar.
Einsatz
Bereitstellung für CloudFlare Worker:
npm run deployIhr Server ist unter der CloudFlare Workers-URL verfügbar, die Ihrem bereitgestellten Worker zugewiesen ist.
Verwendung mit MCP-Clients
Dieser Server implementiert das Model Context Protocol und ermöglicht KI-Assistenten den Zugriff auf seine Tools.
Authentifizierung
Implementieren Sie die OAuth-Authentifizierung mit workers-oauth-provider
API-Schlüsselauthentifizierung mit Bearer-Token hinzufügen
Login-Seite und Token-Verwaltung erstellen
Herstellen einer Verbindung mit einem MCP-Client
Verwenden Sie die CloudFlare Workers-URL, die Ihrem bereitgestellten Worker zugewiesen ist.
Fügen Sie diesen Server in Claude Desktop oder anderen MCP-Clients als Toolquelle hinzu
Verfügbare Tools
crawl: Crawlen Sie Webseiten von einer Start-URL ausgetCrawl: Crawl-Daten nach ID abrufenlistCrawls: Alle Crawls auflisten oder nach Domain filternsearch: Durchsuchen Sie indexierte Dokumente per Abfrageextract: Extrahieren Sie strukturierten Inhalt aus einer URL
Konfiguration
Der Server kann durch Ändern der Umgebungsvariablen in wrangler.toml konfiguriert werden:
MAX_CRAWL_DEPTH: Maximale Tiefe für das Web-Crawling (Standard: 3)MAX_CRAWL_PAGES: Maximale Anzahl zu crawlender Seiten (Standard: 100)API_VERSION: API-Versionszeichenfolge (Standard: „v1“)OAUTH_CLIENT_ID: OAuth-Client-ID für die AuthentifizierungOAUTH_CLIENT_SECRET: OAuth-Client-Geheimnis für die Authentifizierung
Fahrplan
Das Projekt wird unter Berücksichtigung dieser Komponenten entwickelt:
Projekt-Setup und -Konfiguration : CloudFlare Worker-Setup, TypeScript-Konfiguration
MCP-Server und Tool-Schemas : Implementierung des MCP-Servers mit Tool-Definitionen
Crawl4AI-Adapter : Integration mit der Crawl4AI-Funktionalität
OAuth-Authentifizierung : Sichere Authentifizierungsimplementierung
Leistungsoptimierungen : Verbesserung von Geschwindigkeit und Zuverlässigkeit
Erweiterte Extraktionsfunktionen : Verbesserung der Möglichkeiten zur Extraktion strukturierter Daten
Beitragen
Beiträge sind willkommen! Bitte prüfen Sie die offenen Probleme oder erstellen Sie ein neues, bevor Sie mit der Arbeit an einer Funktion oder Fehlerbehebung beginnen. Detaillierte Richtlinien finden Sie in den Beitragsrichtlinien .
Unterstützung
Wenn Sie auf Probleme stoßen oder Fragen haben:
Öffnen Sie ein Problem im GitHub-Repository
Sehen Sie sich die Crawl4AI-Dokumentation an
Siehe die Model Context Protocol-Spezifikation
Zitierhinweis
Wenn Sie den Crawl4AI MCP Server in Ihrer Forschung oder Ihren Projekten verwenden, zitieren Sie ihn bitte mit dem folgenden BibTeX-Eintrag:
Lizenz
Appeared in Searches
- Web search and data extraction capabilities for AI assistants
- A guide to conducting thorough web-based research
- A service for downloading files from MEGA cloud storage
- Enabling deep research modes in AI tools like Kimi and ChatGPT
- A server for finding rental listings on platforms like Facebook, Craigslist, Zillow, and Realtor.com