Integrations
Serves as the deployment platform for the MCP server, enabling the service to run on CloudFlare's edge network
⚠️ HINWEIS
MCP-SERVER WIRD DERZEIT ENTWICKELT
NICHT BEREIT FÜR DEN PRODUKTIONSEINSATZ
WIRD AKTUALISIERT, WENN BETRIEBSBEREIT
Crawl4AI MCP-Server
🚀 Leistungsstarker MCP-Server für Crawl4AI – Ermöglichen Sie KI-Assistenten den Zugriff auf Web Scraping, Crawling und Deep Research über das Model Context Protocol. Schneller und effizienter als FireCrawl!
Überblick
Dieses Projekt implementiert einen benutzerdefinierten Model Context Protocol (MCP)-Server, der mit Crawl4AI, einer Open-Source-Bibliothek für Web Scraping und Crawling, integriert ist. Der Server wird als Remote-MCP-Server auf CloudFlare Workers bereitgestellt, sodass KI-Assistenten wie Claude auf die leistungsstarken Web Scraping-Funktionen von Crawl4AI zugreifen können.
Dokumentation
Ausführliche Informationen zu diesem Projekt finden Sie in der folgenden Dokumentation:
- Migrationsplan – Detaillierter Plan für die Migration von Firecrawl zu Crawl4AI
- Verbesserte Architektur – Multi-Tenant-Architektur mit der Flexibilität eines Cloud-Anbieters
- Implementierungshandbuch – Technische Implementierungsdetails und Codebeispiele
- Codebasisvereinfachung – Details zur Codevereinfachung und den implementierten Best Practices
Merkmale
Webdatenerfassung
- 🌐 Scraping einzelner Webseiten : Extrahieren Sie Inhalte aus einzelnen Webseiten
- 🕸️ Web-Crawling : Crawlen Sie Websites mit konfigurierbarer Tiefe und Seitenbeschränkungen
- 🗺️ URL-Erkennung : Ordnen Sie URLs von einem Ausgangspunkt aus zu und erkennen Sie sie
- 🕸️ Asynchrones Crawling : Effizientes Crawlen ganzer Websites
Inhaltsverarbeitung
- 🔍 Gründliche Recherche : Führen Sie umfassende Recherchen über mehrere Seiten hinweg durch
- 📊 Strukturierte Datenextraktion : Extrahieren Sie spezifische Daten mithilfe von CSS-Selektoren oder LLM-basierter Extraktion
- 🔎 Inhaltssuche : Durchsuchen Sie zuvor gecrawlte Inhalte
Integration und Sicherheit
- 🔄 MCP-Integration : Nahtlose Integration mit MCP-Clients (Claude Desktop usw.)
- 🔒 OAuth-Authentifizierung : Sicherer Zugriff mit entsprechender Autorisierung
- 🔒 Authentifizierungsoptionen : Sicherer Zugriff über OAuth oder API-Schlüssel (Bearer-Token)
- ⚡ Hohe Leistung : Optimiert für Geschwindigkeit und Effizienz
Projektstruktur
Erste Schritte
Voraussetzungen
Installation
- Klonen Sie das Repository:Copy
- Installieren Sie Abhängigkeiten:Copy
- Richten Sie den CloudFlare KV-Namespace ein:Copy
- Aktualisieren Sie
wrangler.toml
mit der KV-Namespace-ID:Copy
Entwicklung
Lokale Entwicklung
- Starten Sie den Entwicklungsserver:Copy
- Der Server ist unter http://localhost:8787 verfügbar.
Einsatz
- Bereitstellung für CloudFlare Worker:Copy
- Ihr Server ist unter der CloudFlare Workers-URL verfügbar, die Ihrem bereitgestellten Worker zugewiesen ist.
Verwendung mit MCP-Clients
Dieser Server implementiert das Model Context Protocol und ermöglicht KI-Assistenten den Zugriff auf seine Tools.
Authentifizierung
- Implementieren Sie die OAuth-Authentifizierung mit workers-oauth-provider
- API-Schlüsselauthentifizierung mit Bearer-Token hinzufügen
- Login-Seite und Token-Verwaltung erstellen
Herstellen einer Verbindung mit einem MCP-Client
- Verwenden Sie die CloudFlare Workers-URL, die Ihrem bereitgestellten Worker zugewiesen ist.
- Fügen Sie diesen Server in Claude Desktop oder anderen MCP-Clients als Toolquelle hinzu
Verfügbare Tools
crawl
: Crawlen Sie Webseiten von einer Start-URL ausgetCrawl
: Crawl-Daten nach ID abrufenlistCrawls
: Alle Crawls auflisten oder nach Domain filternsearch
: Durchsuchen Sie indexierte Dokumente per Abfrageextract
: Extrahieren Sie strukturierten Inhalt aus einer URL
Konfiguration
Der Server kann durch Ändern der Umgebungsvariablen in wrangler.toml
konfiguriert werden:
MAX_CRAWL_DEPTH
: Maximale Tiefe für das Web-Crawling (Standard: 3)MAX_CRAWL_PAGES
: Maximale Anzahl zu crawlender Seiten (Standard: 100)API_VERSION
: API-Versionszeichenfolge (Standard: „v1“)OAUTH_CLIENT_ID
: OAuth-Client-ID für die AuthentifizierungOAUTH_CLIENT_SECRET
: OAuth-Client-Geheimnis für die Authentifizierung
Fahrplan
Das Projekt wird unter Berücksichtigung dieser Komponenten entwickelt:
- Projekt-Setup und -Konfiguration : CloudFlare Worker-Setup, TypeScript-Konfiguration
- MCP-Server und Tool-Schemas : Implementierung des MCP-Servers mit Tool-Definitionen
- Crawl4AI-Adapter : Integration mit der Crawl4AI-Funktionalität
- OAuth-Authentifizierung : Sichere Authentifizierungsimplementierung
- Leistungsoptimierungen : Verbesserung von Geschwindigkeit und Zuverlässigkeit
- Erweiterte Extraktionsfunktionen : Verbesserung der Möglichkeiten zur Extraktion strukturierter Daten
Beitragen
Beiträge sind willkommen! Bitte prüfen Sie die offenen Probleme oder erstellen Sie ein neues, bevor Sie mit der Arbeit an einer Funktion oder Fehlerbehebung beginnen. Detaillierte Richtlinien finden Sie in den Beitragsrichtlinien .
Unterstützung
Wenn Sie auf Probleme stoßen oder Fragen haben:
- Öffnen Sie ein Problem im GitHub-Repository
- Sehen Sie sich die Crawl4AI-Dokumentation an
- Siehe die Model Context Protocol-Spezifikation
Zitierhinweis
Wenn Sie den Crawl4AI MCP Server in Ihrer Forschung oder Ihren Projekten verwenden, zitieren Sie ihn bitte mit dem folgenden BibTeX-Eintrag:
Lizenz
This server cannot be installed
remote-capable server
The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.
Hochleistungsserver, der KI-Assistenten über das Model Context Protocol Zugriff auf Web Scraping, Crawling und umfassende Recherchefunktionen ermöglicht.
Related MCP Servers
- AsecurityAlicenseAqualityA production-ready Model Context Protocol server that enables language models to leverage AI-powered web scraping capabilities, offering tools for transforming webpages to markdown, extracting structured data, and executing AI-powered web searches.Last updated -316PythonMIT License
- -securityAlicense-qualityA Model Context Protocol server that enables AI assistants to perform advanced web scraping, crawling, searching, and data extraction through the Firecrawl API.Last updated -15,275MIT License
- AsecurityFlicenseAqualityA Model Context Protocol server that enables AI assistants to perform real-time web searches, retrieving up-to-date information from the internet via a Crawler API.Last updated -1448JavaScript
- -securityAlicense-qualityA Model Context Protocol server that provides real-time web search capabilities to AI assistants through pluggable search providers, currently integrated with the Brave Search API.Last updated -3TypeScriptMIT License