⚠️ HINWEIS
MCP-SERVER WIRD DERZEIT ENTWICKELT
NICHT BEREIT FÜR DEN PRODUKTIONSEINSATZ
WIRD AKTUALISIERT, WENN BETRIEBSBEREIT
Crawl4AI MCP-Server
🚀 Leistungsstarker MCP-Server für Crawl4AI – Ermöglichen Sie KI-Assistenten den Zugriff auf Web Scraping, Crawling und Deep Research über das Model Context Protocol. Schneller und effizienter als FireCrawl!
Überblick
Dieses Projekt implementiert einen benutzerdefinierten Model Context Protocol (MCP)-Server, der mit Crawl4AI, einer Open-Source-Bibliothek für Web Scraping und Crawling, integriert ist. Der Server wird als Remote-MCP-Server auf CloudFlare Workers bereitgestellt, sodass KI-Assistenten wie Claude auf die leistungsstarken Web Scraping-Funktionen von Crawl4AI zugreifen können.
Dokumentation
Ausführliche Informationen zu diesem Projekt finden Sie in der folgenden Dokumentation:
Migrationsplan – Detaillierter Plan für die Migration von Firecrawl zu Crawl4AI
Verbesserte Architektur – Multi-Tenant-Architektur mit der Flexibilität eines Cloud-Anbieters
Implementierungshandbuch – Technische Implementierungsdetails und Codebeispiele
Codebasisvereinfachung – Details zur Codevereinfachung und den implementierten Best Practices
Merkmale
Webdatenerfassung
🌐 Scraping einzelner Webseiten : Extrahieren Sie Inhalte aus einzelnen Webseiten
🕸️ Web-Crawling : Crawlen Sie Websites mit konfigurierbarer Tiefe und Seitenbeschränkungen
🗺️ URL-Erkennung : Ordnen Sie URLs von einem Ausgangspunkt aus zu und erkennen Sie sie
🕸️ Asynchrones Crawling : Effizientes Crawlen ganzer Websites
Inhaltsverarbeitung
🔍 Gründliche Recherche : Führen Sie umfassende Recherchen über mehrere Seiten hinweg durch
📊 Strukturierte Datenextraktion : Extrahieren Sie spezifische Daten mithilfe von CSS-Selektoren oder LLM-basierter Extraktion
🔎 Inhaltssuche : Durchsuchen Sie zuvor gecrawlte Inhalte
Integration und Sicherheit
🔄 MCP-Integration : Nahtlose Integration mit MCP-Clients (Claude Desktop usw.)
🔒 OAuth-Authentifizierung : Sicherer Zugriff mit entsprechender Autorisierung
🔒 Authentifizierungsoptionen : Sicherer Zugriff über OAuth oder API-Schlüssel (Bearer-Token)
⚡ Hohe Leistung : Optimiert für Geschwindigkeit und Effizienz
Projektstruktur
Erste Schritte
Voraussetzungen
Installation
Klonen Sie das Repository:
git clone https://github.com/BjornMelin/crawl4ai-mcp-server.git cd crawl4ai-mcp-serverInstallieren Sie Abhängigkeiten:
npm installRichten Sie den CloudFlare KV-Namespace ein:
wrangler kv:namespace create CRAWL_DATAAktualisieren Sie
wrangler.toml
mit der KV-Namespace-ID:kv_namespaces = [ { binding = "CRAWL_DATA", id = "your-namespace-id" } ]
Entwicklung
Lokale Entwicklung
Starten Sie den Entwicklungsserver:
npm run devDer Server ist unter http://localhost:8787 verfügbar.
Einsatz
Bereitstellung für CloudFlare Worker:
npm run deployIhr Server ist unter der CloudFlare Workers-URL verfügbar, die Ihrem bereitgestellten Worker zugewiesen ist.
Verwendung mit MCP-Clients
Dieser Server implementiert das Model Context Protocol und ermöglicht KI-Assistenten den Zugriff auf seine Tools.
Authentifizierung
Implementieren Sie die OAuth-Authentifizierung mit workers-oauth-provider
API-Schlüsselauthentifizierung mit Bearer-Token hinzufügen
Login-Seite und Token-Verwaltung erstellen
Herstellen einer Verbindung mit einem MCP-Client
Verwenden Sie die CloudFlare Workers-URL, die Ihrem bereitgestellten Worker zugewiesen ist.
Fügen Sie diesen Server in Claude Desktop oder anderen MCP-Clients als Toolquelle hinzu
Verfügbare Tools
crawl
: Crawlen Sie Webseiten von einer Start-URL ausgetCrawl
: Crawl-Daten nach ID abrufenlistCrawls
: Alle Crawls auflisten oder nach Domain filternsearch
: Durchsuchen Sie indexierte Dokumente per Abfrageextract
: Extrahieren Sie strukturierten Inhalt aus einer URL
Konfiguration
Der Server kann durch Ändern der Umgebungsvariablen in wrangler.toml
konfiguriert werden:
MAX_CRAWL_DEPTH
: Maximale Tiefe für das Web-Crawling (Standard: 3)MAX_CRAWL_PAGES
: Maximale Anzahl zu crawlender Seiten (Standard: 100)API_VERSION
: API-Versionszeichenfolge (Standard: „v1“)OAUTH_CLIENT_ID
: OAuth-Client-ID für die AuthentifizierungOAUTH_CLIENT_SECRET
: OAuth-Client-Geheimnis für die Authentifizierung
Fahrplan
Das Projekt wird unter Berücksichtigung dieser Komponenten entwickelt:
Projekt-Setup und -Konfiguration : CloudFlare Worker-Setup, TypeScript-Konfiguration
MCP-Server und Tool-Schemas : Implementierung des MCP-Servers mit Tool-Definitionen
Crawl4AI-Adapter : Integration mit der Crawl4AI-Funktionalität
OAuth-Authentifizierung : Sichere Authentifizierungsimplementierung
Leistungsoptimierungen : Verbesserung von Geschwindigkeit und Zuverlässigkeit
Erweiterte Extraktionsfunktionen : Verbesserung der Möglichkeiten zur Extraktion strukturierter Daten
Beitragen
Beiträge sind willkommen! Bitte prüfen Sie die offenen Probleme oder erstellen Sie ein neues, bevor Sie mit der Arbeit an einer Funktion oder Fehlerbehebung beginnen. Detaillierte Richtlinien finden Sie in den Beitragsrichtlinien .
Unterstützung
Wenn Sie auf Probleme stoßen oder Fragen haben:
Öffnen Sie ein Problem im GitHub-Repository
Sehen Sie sich die Crawl4AI-Dokumentation an
Siehe die Model Context Protocol-Spezifikation
Zitierhinweis
Wenn Sie den Crawl4AI MCP Server in Ihrer Forschung oder Ihren Projekten verwenden, zitieren Sie ihn bitte mit dem folgenden BibTeX-Eintrag:
Lizenz
This server cannot be installed
hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
Hochleistungsserver, der KI-Assistenten über das Model Context Protocol Zugriff auf Web Scraping, Crawling und umfassende Recherchefunktionen ermöglicht.
Related MCP Servers
- AsecurityAlicenseAqualityA production-ready Model Context Protocol server that enables language models to leverage AI-powered web scraping capabilities, offering tools for transforming webpages to markdown, extracting structured data, and executing AI-powered web searches.Last updated -538MIT License
- -securityAlicense-qualityA Model Context Protocol server that enables AI assistants to perform advanced web scraping, crawling, searching, and data extraction through the Firecrawl API.Last updated -72,328MIT License
- AsecurityFlicenseAqualityA Model Context Protocol server that enables AI assistants to perform real-time web searches, retrieving up-to-date information from the internet via a Crawler API.Last updated -128517
- AsecurityAlicenseAqualityA Model Context Protocol server enabling AI assistants to scrape web content with high accuracy and flexibility, supporting multiple scraping modes and content formatting options.Last updated -4262MIT License
Appeared in Searches
- Web search and data extraction capabilities for AI assistants
- A guide to conducting thorough web-based research
- A service for downloading files from MEGA cloud storage
- Enabling deep research modes in AI tools like Kimi and ChatGPT
- A server for finding rental listings on platforms like Facebook, Craigslist, Zillow, and Realtor.com