Skip to main content
Glama

⚠️ HINWEIS

MCP-SERVER WIRD DERZEIT ENTWICKELT
NICHT BEREIT FÜR DEN PRODUKTIONSEINSATZ
WIRD AKTUALISIERT, WENN BETRIEBSBEREIT

Crawl4AI MCP-Server

🚀 Leistungsstarker MCP-Server für Crawl4AI – Ermöglichen Sie KI-Assistenten den Zugriff auf Web Scraping, Crawling und Deep Research über das Model Context Protocol. Schneller und effizienter als FireCrawl!

Überblick

Dieses Projekt implementiert einen benutzerdefinierten Model Context Protocol (MCP)-Server, der mit Crawl4AI, einer Open-Source-Bibliothek für Web Scraping und Crawling, integriert ist. Der Server wird als Remote-MCP-Server auf CloudFlare Workers bereitgestellt, sodass KI-Assistenten wie Claude auf die leistungsstarken Web Scraping-Funktionen von Crawl4AI zugreifen können.

Related MCP server: Firecrawl MCP Server

Dokumentation

Ausführliche Informationen zu diesem Projekt finden Sie in der folgenden Dokumentation:

Merkmale

Webdatenerfassung

  • 🌐 Scraping einzelner Webseiten : Extrahieren Sie Inhalte aus einzelnen Webseiten

  • 🕸️ Web-Crawling : Crawlen Sie Websites mit konfigurierbarer Tiefe und Seitenbeschränkungen

  • 🗺️ URL-Erkennung : Ordnen Sie URLs von einem Ausgangspunkt aus zu und erkennen Sie sie

  • 🕸️ Asynchrones Crawling : Effizientes Crawlen ganzer Websites

Inhaltsverarbeitung

  • 🔍 Gründliche Recherche : Führen Sie umfassende Recherchen über mehrere Seiten hinweg durch

  • 📊 Strukturierte Datenextraktion : Extrahieren Sie spezifische Daten mithilfe von CSS-Selektoren oder LLM-basierter Extraktion

  • 🔎 Inhaltssuche : Durchsuchen Sie zuvor gecrawlte Inhalte

Integration und Sicherheit

  • 🔄 MCP-Integration : Nahtlose Integration mit MCP-Clients (Claude Desktop usw.)

  • 🔒 OAuth-Authentifizierung : Sicherer Zugriff mit entsprechender Autorisierung

  • 🔒 Authentifizierungsoptionen : Sicherer Zugriff über OAuth oder API-Schlüssel (Bearer-Token)

  • Hohe Leistung : Optimiert für Geschwindigkeit und Effizienz

Projektstruktur

crawl4ai-mcp/ ├── src/ │ ├── index.ts # Main entry point with OAuth provider setup │ ├── auth-handler.ts # Authentication handler │ ├── mcp-server.ts # MCP server implementation │ ├── crawl4ai-adapter.ts # Adapter for Crawl4AI API │ ├── tool-schemas/ # MCP tool schema definitions │ │ └── [...].ts # Tool schemas │ ├── handlers/ │ │ ├── crawl.ts # Web crawling implementation │ │ ├── search.ts # Search functionality │ │ └── extract.ts # Content extraction │ └── utils/ # Utility functions ├── tests/ # Test cases ├── .github/ # GitHub configuration ├── wrangler.toml # CloudFlare Workers configuration ├── tsconfig.json # TypeScript configuration ├── package.json # Node.js dependencies └── README.md # Project documentation

Erste Schritte

Voraussetzungen

Installation

  1. Klonen Sie das Repository:

    git clone https://github.com/BjornMelin/crawl4ai-mcp-server.git cd crawl4ai-mcp-server
  2. Installieren Sie Abhängigkeiten:

    npm install
  3. Richten Sie den CloudFlare KV-Namespace ein:

    wrangler kv:namespace create CRAWL_DATA
  4. Aktualisieren Sie wrangler.toml mit der KV-Namespace-ID:

    kv_namespaces = [ { binding = "CRAWL_DATA", id = "your-namespace-id" } ]

Entwicklung

Lokale Entwicklung

  1. Starten Sie den Entwicklungsserver:

    npm run dev
  2. Der Server ist unter http://localhost:8787 verfügbar.

Einsatz

  1. Bereitstellung für CloudFlare Worker:

    npm run deploy
  2. Ihr Server ist unter der CloudFlare Workers-URL verfügbar, die Ihrem bereitgestellten Worker zugewiesen ist.

Verwendung mit MCP-Clients

Dieser Server implementiert das Model Context Protocol und ermöglicht KI-Assistenten den Zugriff auf seine Tools.

Authentifizierung

  • Implementieren Sie die OAuth-Authentifizierung mit workers-oauth-provider

  • API-Schlüsselauthentifizierung mit Bearer-Token hinzufügen

  • Login-Seite und Token-Verwaltung erstellen

Herstellen einer Verbindung mit einem MCP-Client

  1. Verwenden Sie die CloudFlare Workers-URL, die Ihrem bereitgestellten Worker zugewiesen ist.

  2. Fügen Sie diesen Server in Claude Desktop oder anderen MCP-Clients als Toolquelle hinzu

Verfügbare Tools

  • crawl : Crawlen Sie Webseiten von einer Start-URL aus

  • getCrawl : Crawl-Daten nach ID abrufen

  • listCrawls : Alle Crawls auflisten oder nach Domain filtern

  • search : Durchsuchen Sie indexierte Dokumente per Abfrage

  • extract : Extrahieren Sie strukturierten Inhalt aus einer URL

Konfiguration

Der Server kann durch Ändern der Umgebungsvariablen in wrangler.toml konfiguriert werden:

  • MAX_CRAWL_DEPTH : Maximale Tiefe für das Web-Crawling (Standard: 3)

  • MAX_CRAWL_PAGES : Maximale Anzahl zu crawlender Seiten (Standard: 100)

  • API_VERSION : API-Versionszeichenfolge (Standard: „v1“)

  • OAUTH_CLIENT_ID : OAuth-Client-ID für die Authentifizierung

  • OAUTH_CLIENT_SECRET : OAuth-Client-Geheimnis für die Authentifizierung

Fahrplan

Das Projekt wird unter Berücksichtigung dieser Komponenten entwickelt:

  1. Projekt-Setup und -Konfiguration : CloudFlare Worker-Setup, TypeScript-Konfiguration

  2. MCP-Server und Tool-Schemas : Implementierung des MCP-Servers mit Tool-Definitionen

  3. Crawl4AI-Adapter : Integration mit der Crawl4AI-Funktionalität

  4. OAuth-Authentifizierung : Sichere Authentifizierungsimplementierung

  5. Leistungsoptimierungen : Verbesserung von Geschwindigkeit und Zuverlässigkeit

  6. Erweiterte Extraktionsfunktionen : Verbesserung der Möglichkeiten zur Extraktion strukturierter Daten

Beitragen

Beiträge sind willkommen! Bitte prüfen Sie die offenen Probleme oder erstellen Sie ein neues, bevor Sie mit der Arbeit an einer Funktion oder Fehlerbehebung beginnen. Detaillierte Richtlinien finden Sie in den Beitragsrichtlinien .

Unterstützung

Wenn Sie auf Probleme stoßen oder Fragen haben:

Zitierhinweis

Wenn Sie den Crawl4AI MCP Server in Ihrer Forschung oder Ihren Projekten verwenden, zitieren Sie ihn bitte mit dem folgenden BibTeX-Eintrag:

@software{crawl4ai_mcp_2025, author = {Melin, Bjorn}, title = {Crawl4AI MCP Server: High-performance Web Crawling for AI Assistants}, url = {https://github.com/BjornMelin/crawl4ai-mcp-server}, version = {1.0.0}, year = {2025}, month = {5} }

Lizenz

MIT

-
security - not tested
F
license - not found
-
quality - not tested

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/BjornMelin/crawl4ai-mcp-server'

If you have feedback or need assistance with the MCP directory API, please join our Discord server