⚠️ HINWEIS

MCP-SERVER WIRD DERZEIT ENTWICKELT
NICHT BEREIT FÜR DEN PRODUKTIONSEINSATZ
WIRD AKTUALISIERT, WENN BETRIEBSBEREIT

Crawl4AI MCP-Server

🚀 Leistungsstarker MCP-Server für Crawl4AI – Ermöglichen Sie KI-Assistenten den Zugriff auf Web Scraping, Crawling und Deep Research über das Model Context Protocol. Schneller und effizienter als FireCrawl!

Überblick

Dieses Projekt implementiert einen benutzerdefinierten Model Context Protocol (MCP)-Server, der mit Crawl4AI, einer Open-Source-Bibliothek für Web Scraping und Crawling, integriert ist. Der Server wird als Remote-MCP-Server auf CloudFlare Workers bereitgestellt, sodass KI-Assistenten wie Claude auf die leistungsstarken Web Scraping-Funktionen von Crawl4AI zugreifen können.

Dokumentation

Ausführliche Informationen zu diesem Projekt finden Sie in der folgenden Dokumentation:

Migrationsplan – Detaillierter Plan für die Migration von Firecrawl zu Crawl4AI
Verbesserte Architektur – Multi-Tenant-Architektur mit der Flexibilität eines Cloud-Anbieters
Implementierungshandbuch – Technische Implementierungsdetails und Codebeispiele
Codebasisvereinfachung – Details zur Codevereinfachung und den implementierten Best Practices

Merkmale

Webdatenerfassung

🌐 Scraping einzelner Webseiten : Extrahieren Sie Inhalte aus einzelnen Webseiten
🕸️ Web-Crawling : Crawlen Sie Websites mit konfigurierbarer Tiefe und Seitenbeschränkungen
🗺️ URL-Erkennung : Ordnen Sie URLs von einem Ausgangspunkt aus zu und erkennen Sie sie
🕸️ Asynchrones Crawling : Effizientes Crawlen ganzer Websites

Inhaltsverarbeitung

🔍 Gründliche Recherche : Führen Sie umfassende Recherchen über mehrere Seiten hinweg durch
📊 Strukturierte Datenextraktion : Extrahieren Sie spezifische Daten mithilfe von CSS-Selektoren oder LLM-basierter Extraktion
🔎 Inhaltssuche : Durchsuchen Sie zuvor gecrawlte Inhalte

Integration und Sicherheit

🔄 MCP-Integration : Nahtlose Integration mit MCP-Clients (Claude Desktop usw.)
🔒 OAuth-Authentifizierung : Sicherer Zugriff mit entsprechender Autorisierung
🔒 Authentifizierungsoptionen : Sicherer Zugriff über OAuth oder API-Schlüssel (Bearer-Token)
⚡ Hohe Leistung : Optimiert für Geschwindigkeit und Effizienz

Projektstruktur

crawl4ai-mcp/ ├── src/ │ ├── index.ts # Main entry point with OAuth provider setup │ ├── auth-handler.ts # Authentication handler │ ├── mcp-server.ts # MCP server implementation │ ├── crawl4ai-adapter.ts # Adapter for Crawl4AI API │ ├── tool-schemas/ # MCP tool schema definitions │ │ └── [...].ts # Tool schemas │ ├── handlers/ │ │ ├── crawl.ts # Web crawling implementation │ │ ├── search.ts # Search functionality │ │ └── extract.ts # Content extraction │ └── utils/ # Utility functions ├── tests/ # Test cases ├── .github/ # GitHub configuration ├── wrangler.toml # CloudFlare Workers configuration ├── tsconfig.json # TypeScript configuration ├── package.json # Node.js dependencies └── README.md # Project documentation

Erste Schritte

Voraussetzungen

Node.js (v18 oder höher)
npm
Wrangler (CloudFlare Workers CLI)
Ein CloudFlare-Konto

Installation

Klonen Sie das Repository:
git clone https://github.com/BjornMelin/crawl4ai-mcp-server.git cd crawl4ai-mcp-server
Installieren Sie Abhängigkeiten:
npm install
Richten Sie den CloudFlare KV-Namespace ein:
wrangler kv:namespace create CRAWL_DATA
Aktualisieren Sie wrangler.toml mit der KV-Namespace-ID:
kv_namespaces = [ { binding = "CRAWL_DATA", id = "your-namespace-id" } ]

Entwicklung

Lokale Entwicklung

Starten Sie den Entwicklungsserver:
npm run dev
Der Server ist unter http://localhost:8787 verfügbar.

Einsatz

Bereitstellung für CloudFlare Worker:
npm run deploy
Ihr Server ist unter der CloudFlare Workers-URL verfügbar, die Ihrem bereitgestellten Worker zugewiesen ist.

Verwendung mit MCP-Clients

Dieser Server implementiert das Model Context Protocol und ermöglicht KI-Assistenten den Zugriff auf seine Tools.

Authentifizierung

Implementieren Sie die OAuth-Authentifizierung mit workers-oauth-provider
API-Schlüsselauthentifizierung mit Bearer-Token hinzufügen
Login-Seite und Token-Verwaltung erstellen

Herstellen einer Verbindung mit einem MCP-Client

Verwenden Sie die CloudFlare Workers-URL, die Ihrem bereitgestellten Worker zugewiesen ist.
Fügen Sie diesen Server in Claude Desktop oder anderen MCP-Clients als Toolquelle hinzu

Verfügbare Tools

crawl : Crawlen Sie Webseiten von einer Start-URL aus
getCrawl : Crawl-Daten nach ID abrufen
listCrawls : Alle Crawls auflisten oder nach Domain filtern
search : Durchsuchen Sie indexierte Dokumente per Abfrage
extract : Extrahieren Sie strukturierten Inhalt aus einer URL

Konfiguration

Der Server kann durch Ändern der Umgebungsvariablen in wrangler.toml konfiguriert werden:

MAX_CRAWL_DEPTH : Maximale Tiefe für das Web-Crawling (Standard: 3)
MAX_CRAWL_PAGES : Maximale Anzahl zu crawlender Seiten (Standard: 100)
API_VERSION : API-Versionszeichenfolge (Standard: „v1“)
OAUTH_CLIENT_ID : OAuth-Client-ID für die Authentifizierung
OAUTH_CLIENT_SECRET : OAuth-Client-Geheimnis für die Authentifizierung

Fahrplan

Das Projekt wird unter Berücksichtigung dieser Komponenten entwickelt:

Projekt-Setup und -Konfiguration : CloudFlare Worker-Setup, TypeScript-Konfiguration
MCP-Server und Tool-Schemas : Implementierung des MCP-Servers mit Tool-Definitionen
Crawl4AI-Adapter : Integration mit der Crawl4AI-Funktionalität
OAuth-Authentifizierung : Sichere Authentifizierungsimplementierung
Leistungsoptimierungen : Verbesserung von Geschwindigkeit und Zuverlässigkeit
Erweiterte Extraktionsfunktionen : Verbesserung der Möglichkeiten zur Extraktion strukturierter Daten

Beitragen

Beiträge sind willkommen! Bitte prüfen Sie die offenen Probleme oder erstellen Sie ein neues, bevor Sie mit der Arbeit an einer Funktion oder Fehlerbehebung beginnen. Detaillierte Richtlinien finden Sie in den Beitragsrichtlinien .

Unterstützung

Wenn Sie auf Probleme stoßen oder Fragen haben:

Öffnen Sie ein Problem im GitHub-Repository
Sehen Sie sich die Crawl4AI-Dokumentation an
Siehe die Model Context Protocol-Spezifikation

Zitierhinweis

Wenn Sie den Crawl4AI MCP Server in Ihrer Forschung oder Ihren Projekten verwenden, zitieren Sie ihn bitte mit dem folgenden BibTeX-Eintrag:

@software{crawl4ai_mcp_2025, author = {Melin, Bjorn}, title = {Crawl4AI MCP Server: High-performance Web Crawling for AI Assistants}, url = {https://github.com/BjornMelin/crawl4ai-mcp-server}, version = {1.0.0}, year = {2025}, month = {5} }

Lizenz

MIT

This server cannot be installed

security - not tested

license - not found

quality - not tested

How are these scores calculated?

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

Hochleistungsserver, der KI-Assistenten über das Model Context Protocol Zugriff auf Web Scraping, Crawling und umfassende Recherchefunktionen ermöglicht.

Crawl4AI MCP-Server

Related MCP Servers

ScrapeGraph MCP Serverofficial
ScrapeGraphAI
A
security
A
license
A
quality
A production-ready Model Context Protocol server that enables language models to leverage AI-powered web scraping capabilities, offering tools for transforming webpages to markdown, extracting structured data, and executing AI-powered web searches.
Last updated -
5
38
MIT License
Firecrawl MCP Server
mcma123
-
security
A
license
-
quality
A Model Context Protocol server that enables AI assistants to perform advanced web scraping, crawling, searching, and data extraction through the Firecrawl API.
Last updated -
72,328
MIT License
WebSearch-MCP
mnhlt
A
security
F
license
A
quality
A Model Context Protocol server that enables AI assistants to perform real-time web searches, retrieving up-to-date information from the internet via a Crawler API.
Last updated -
1
285
17
Prysm MCP Server
pinkpixel-dev
A
security
A
license
A
quality
A Model Context Protocol server enabling AI assistants to scrape web content with high accuracy and flexibility, supporting multiple scraping modes and content formatting options.
Last updated -
4
26
2
MIT License

View all related MCP servers

Crawl4AI MCP Server