Crawl4AI MCP Server

Integrations

  • Serves as the deployment platform for the MCP server, enabling the service to run on CloudFlare's edge network

⚠️ HINWEIS

MCP-SERVER WIRD DERZEIT ENTWICKELT
NICHT BEREIT FÜR DEN PRODUKTIONSEINSATZ
WIRD AKTUALISIERT, WENN BETRIEBSBEREIT

Crawl4AI MCP-Server

🚀 Leistungsstarker MCP-Server für Crawl4AI – Ermöglichen Sie KI-Assistenten den Zugriff auf Web Scraping, Crawling und Deep Research über das Model Context Protocol. Schneller und effizienter als FireCrawl!

Überblick

Dieses Projekt implementiert einen benutzerdefinierten Model Context Protocol (MCP)-Server, der mit Crawl4AI, einer Open-Source-Bibliothek für Web Scraping und Crawling, integriert ist. Der Server wird als Remote-MCP-Server auf CloudFlare Workers bereitgestellt, sodass KI-Assistenten wie Claude auf die leistungsstarken Web Scraping-Funktionen von Crawl4AI zugreifen können.

Dokumentation

Ausführliche Informationen zu diesem Projekt finden Sie in der folgenden Dokumentation:

Merkmale

Webdatenerfassung

  • 🌐 Scraping einzelner Webseiten : Extrahieren Sie Inhalte aus einzelnen Webseiten
  • 🕸️ Web-Crawling : Crawlen Sie Websites mit konfigurierbarer Tiefe und Seitenbeschränkungen
  • 🗺️ URL-Erkennung : Ordnen Sie URLs von einem Ausgangspunkt aus zu und erkennen Sie sie
  • 🕸️ Asynchrones Crawling : Effizientes Crawlen ganzer Websites

Inhaltsverarbeitung

  • 🔍 Gründliche Recherche : Führen Sie umfassende Recherchen über mehrere Seiten hinweg durch
  • 📊 Strukturierte Datenextraktion : Extrahieren Sie spezifische Daten mithilfe von CSS-Selektoren oder LLM-basierter Extraktion
  • 🔎 Inhaltssuche : Durchsuchen Sie zuvor gecrawlte Inhalte

Integration und Sicherheit

  • 🔄 MCP-Integration : Nahtlose Integration mit MCP-Clients (Claude Desktop usw.)
  • 🔒 OAuth-Authentifizierung : Sicherer Zugriff mit entsprechender Autorisierung
  • 🔒 Authentifizierungsoptionen : Sicherer Zugriff über OAuth oder API-Schlüssel (Bearer-Token)
  • Hohe Leistung : Optimiert für Geschwindigkeit und Effizienz

Projektstruktur

crawl4ai-mcp/ ├── src/ │ ├── index.ts # Main entry point with OAuth provider setup │ ├── auth-handler.ts # Authentication handler │ ├── mcp-server.ts # MCP server implementation │ ├── crawl4ai-adapter.ts # Adapter for Crawl4AI API │ ├── tool-schemas/ # MCP tool schema definitions │ │ └── [...].ts # Tool schemas │ ├── handlers/ │ │ ├── crawl.ts # Web crawling implementation │ │ ├── search.ts # Search functionality │ │ └── extract.ts # Content extraction │ └── utils/ # Utility functions ├── tests/ # Test cases ├── .github/ # GitHub configuration ├── wrangler.toml # CloudFlare Workers configuration ├── tsconfig.json # TypeScript configuration ├── package.json # Node.js dependencies └── README.md # Project documentation

Erste Schritte

Voraussetzungen

Installation

  1. Klonen Sie das Repository:
    git clone https://github.com/BjornMelin/crawl4ai-mcp-server.git cd crawl4ai-mcp-server
  2. Installieren Sie Abhängigkeiten:
    npm install
  3. Richten Sie den CloudFlare KV-Namespace ein:
    wrangler kv:namespace create CRAWL_DATA
  4. Aktualisieren Sie wrangler.toml mit der KV-Namespace-ID:
    kv_namespaces = [ { binding = "CRAWL_DATA", id = "your-namespace-id" } ]

Entwicklung

Lokale Entwicklung

  1. Starten Sie den Entwicklungsserver:
    npm run dev
  2. Der Server ist unter http://localhost:8787 verfügbar.

Einsatz

  1. Bereitstellung für CloudFlare Worker:
    npm run deploy
  2. Ihr Server ist unter der CloudFlare Workers-URL verfügbar, die Ihrem bereitgestellten Worker zugewiesen ist.

Verwendung mit MCP-Clients

Dieser Server implementiert das Model Context Protocol und ermöglicht KI-Assistenten den Zugriff auf seine Tools.

Authentifizierung

  • Implementieren Sie die OAuth-Authentifizierung mit workers-oauth-provider
  • API-Schlüsselauthentifizierung mit Bearer-Token hinzufügen
  • Login-Seite und Token-Verwaltung erstellen

Herstellen einer Verbindung mit einem MCP-Client

  1. Verwenden Sie die CloudFlare Workers-URL, die Ihrem bereitgestellten Worker zugewiesen ist.
  2. Fügen Sie diesen Server in Claude Desktop oder anderen MCP-Clients als Toolquelle hinzu

Verfügbare Tools

  • crawl : Crawlen Sie Webseiten von einer Start-URL aus
  • getCrawl : Crawl-Daten nach ID abrufen
  • listCrawls : Alle Crawls auflisten oder nach Domain filtern
  • search : Durchsuchen Sie indexierte Dokumente per Abfrage
  • extract : Extrahieren Sie strukturierten Inhalt aus einer URL

Konfiguration

Der Server kann durch Ändern der Umgebungsvariablen in wrangler.toml konfiguriert werden:

  • MAX_CRAWL_DEPTH : Maximale Tiefe für das Web-Crawling (Standard: 3)
  • MAX_CRAWL_PAGES : Maximale Anzahl zu crawlender Seiten (Standard: 100)
  • API_VERSION : API-Versionszeichenfolge (Standard: „v1“)
  • OAUTH_CLIENT_ID : OAuth-Client-ID für die Authentifizierung
  • OAUTH_CLIENT_SECRET : OAuth-Client-Geheimnis für die Authentifizierung

Fahrplan

Das Projekt wird unter Berücksichtigung dieser Komponenten entwickelt:

  1. Projekt-Setup und -Konfiguration : CloudFlare Worker-Setup, TypeScript-Konfiguration
  2. MCP-Server und Tool-Schemas : Implementierung des MCP-Servers mit Tool-Definitionen
  3. Crawl4AI-Adapter : Integration mit der Crawl4AI-Funktionalität
  4. OAuth-Authentifizierung : Sichere Authentifizierungsimplementierung
  5. Leistungsoptimierungen : Verbesserung von Geschwindigkeit und Zuverlässigkeit
  6. Erweiterte Extraktionsfunktionen : Verbesserung der Möglichkeiten zur Extraktion strukturierter Daten

Beitragen

Beiträge sind willkommen! Bitte prüfen Sie die offenen Probleme oder erstellen Sie ein neues, bevor Sie mit der Arbeit an einer Funktion oder Fehlerbehebung beginnen. Detaillierte Richtlinien finden Sie in den Beitragsrichtlinien .

Unterstützung

Wenn Sie auf Probleme stoßen oder Fragen haben:

Zitierhinweis

Wenn Sie den Crawl4AI MCP Server in Ihrer Forschung oder Ihren Projekten verwenden, zitieren Sie ihn bitte mit dem folgenden BibTeX-Eintrag:

@software{crawl4ai_mcp_2025, author = {Melin, Bjorn}, title = {Crawl4AI MCP Server: High-performance Web Crawling for AI Assistants}, url = {https://github.com/BjornMelin/crawl4ai-mcp-server}, version = {1.0.0}, year = {2025}, month = {5} }

Lizenz

MIT

-
security - not tested
F
license - not found
-
quality - not tested

remote-capable server

The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.

Hochleistungsserver, der KI-Assistenten über das Model Context Protocol Zugriff auf Web Scraping, Crawling und umfassende Recherchefunktionen ermöglicht.

  1. Crawl4AI MCP-Server
    1. Überblick
    2. Dokumentation
    3. Merkmale
    4. Projektstruktur
    5. Erste Schritte
    6. Entwicklung
    7. Einsatz
    8. Verwendung mit MCP-Clients
    9. Konfiguration
    10. Fahrplan
    11. Beitragen
    12. Unterstützung
    13. Zitierhinweis
    14. Lizenz

Related MCP Servers

  • A
    security
    A
    license
    A
    quality
    A production-ready Model Context Protocol server that enables language models to leverage AI-powered web scraping capabilities, offering tools for transforming webpages to markdown, extracting structured data, and executing AI-powered web searches.
    Last updated -
    3
    16
    Python
    MIT License
    • Apple
  • -
    security
    A
    license
    -
    quality
    A Model Context Protocol server that enables AI assistants to perform advanced web scraping, crawling, searching, and data extraction through the Firecrawl API.
    Last updated -
    15,275
    MIT License
    • Apple
    • Linux
  • A
    security
    F
    license
    A
    quality
    A Model Context Protocol server that enables AI assistants to perform real-time web searches, retrieving up-to-date information from the internet via a Crawler API.
    Last updated -
    1
    44
    8
    JavaScript
    • Apple
    • Linux
  • -
    security
    A
    license
    -
    quality
    A Model Context Protocol server that provides real-time web search capabilities to AI assistants through pluggable search providers, currently integrated with the Brave Search API.
    Last updated -
    3
    TypeScript
    MIT License

View all related MCP servers

ID: qxqai2h895