Crawl4AI MCP Server

Integrations

  • Serves as the deployment platform for the MCP server, enabling the service to run on CloudFlare's edge network

⚠️お知らせ

MCPサーバーは現在開発中です
実稼働環境での使用には適していません
運用開始時に更新されます

Crawl4AI MCP サーバー

🚀 Crawl4AI向け高性能MCPサーバー - AIアシスタントがモデルコンテキストプロトコル(MCP)を介してWebスクレイピング、クローリング、ディープリサーチにアクセスできるようにします。FireCrawlよりも高速で効率的です!

概要

このプロジェクトは、オープンソースのウェブスクレイピングおよびクローリングライブラリであるCrawl4AIと統合するカスタムモデルコンテキストプロトコル(MCP)サーバーを実装します。このサーバーはCloudFlare Workers上にリモートMCPサーバーとしてデプロイされ、ClaudeのようなAIアシスタントがCrawl4AIの強力なウェブスクレイピング機能にアクセスできるようにします。

ドキュメント

このプロジェクトの包括的な詳細については、次のドキュメントを参照してください。

特徴

Webデータ取得

  • 🌐単一ウェブページスクレイピング:個々のウェブページからコンテンツを抽出します
  • 🕸️ Web クロール: 設定可能な深さとページ制限で Web サイトをクロールします
  • 🗺️ URL 検出: 開始点から URL をマップして検出します
  • 🕸️非同期クロール:ウェブサイト全体を効率的にクロールする

コンテンツ処理

  • 🔍ディープリサーチ:複数のページにわたる包括的なリサーチを実施
  • 📊構造化データ抽出: CSSセレクターまたはLLMベースの抽出を使用して特定のデータを抽出します
  • 🔎コンテンツ検索:以前にクロールしたコンテンツを検索する

統合とセキュリティ

  • 🔄 MCP 統合:MCP クライアント(Claude Desktop など)とのシームレスな統合
  • 🔒 OAuth認証:適切な認証による安全なアクセス
  • 🔒認証オプション: OAuth または API キー (ベアラー トークン) による安全なアクセス
  • 高性能:速度と効率を最適化

プロジェクト構造

crawl4ai-mcp/ ├── src/ │ ├── index.ts # Main entry point with OAuth provider setup │ ├── auth-handler.ts # Authentication handler │ ├── mcp-server.ts # MCP server implementation │ ├── crawl4ai-adapter.ts # Adapter for Crawl4AI API │ ├── tool-schemas/ # MCP tool schema definitions │ │ └── [...].ts # Tool schemas │ ├── handlers/ │ │ ├── crawl.ts # Web crawling implementation │ │ ├── search.ts # Search functionality │ │ └── extract.ts # Content extraction │ └── utils/ # Utility functions ├── tests/ # Test cases ├── .github/ # GitHub configuration ├── wrangler.toml # CloudFlare Workers configuration ├── tsconfig.json # TypeScript configuration ├── package.json # Node.js dependencies └── README.md # Project documentation

はじめる

前提条件

インストール

  1. リポジトリをクローンします。
    git clone https://github.com/BjornMelin/crawl4ai-mcp-server.git cd crawl4ai-mcp-server
  2. 依存関係をインストールします:
    npm install
  3. CloudFlare KV 名前空間を設定します。
    wrangler kv:namespace create CRAWL_DATA
  4. KV 名前空間 ID を使用してwrangler.toml更新します。
    kv_namespaces = [ { binding = "CRAWL_DATA", id = "your-namespace-id" } ]

発達

地域開発

  1. 開発サーバーを起動します。
    npm run dev
  2. サーバーはhttp://localhost:8787で利用できます。

展開

  1. CloudFlare Workers にデプロイする:
    npm run deploy
  2. サーバーは、デプロイされたワーカーに割り当てられた CloudFlare Workers URL で利用できるようになります。

MCPクライアントでの使用

このサーバーはモデルコンテキストプロトコルを実装し、AI アシスタントがそのツールにアクセスできるようにします。

認証

  • workers-oauth-providerを使用してOAuth認証を実装する
  • ベアラートークンを使用したAPIキー認証を追加する
  • ログインページとトークン管理を作成する

MCPクライアントへの接続

  1. デプロイされたワーカーに割り当てられた CloudFlare Workers URL を使用します。
  2. Claude Desktopまたは他のMCPクライアントで、このサーバーをツールソースとして追加します。

利用可能なツール

  • crawl : 開始 URL から Web ページをクロールする
  • getCrawl : IDでクロールデータを取得する
  • listCrawls : すべてのクロールを一覧表示するか、ドメインでフィルタリングする
  • search : クエリでインデックスされたドキュメントを検索する
  • extract : URLから構造化コンテンツを抽出する

構成

サーバーは、 wrangler.tomlの環境変数を変更することで設定できます。

  • MAX_CRAWL_DEPTH : ウェブクロールの最大深度(デフォルト: 3)
  • MAX_CRAWL_PAGES : クロールする最大ページ数(デフォルト: 100)
  • API_VERSION : APIバージョン文字列(デフォルト: "v1")
  • OAUTH_CLIENT_ID : 認証用のOAuthクライアントID
  • OAUTH_CLIENT_SECRET : 認証用のOAuthクライアントシークレット

ロードマップ

このプロジェクトは、以下の要素を念頭に置いて開発されています。

  1. プロジェクトのセットアップと構成: CloudFlare Worker のセットアップ、TypeScript の構成
  2. MCP サーバーとツール スキーマ: ツール定義を使用した MCP サーバーの実装
  3. Crawl4AI アダプター: Crawl4AI 機能との統合
  4. OAuth認証:安全な認証実装
  5. パフォーマンスの最適化:速度と信頼性の向上
  6. 高度な抽出機能:構造化データ抽出機能の向上

貢献

貢献を歓迎します!機能追加やバグ修正の作業を始める前に、未解決の問題を確認するか、新しい問題を作成してください。詳細なガイドラインについては、貢献ガイドラインをご覧ください。

サポート

問題が発生した場合や質問がある場合:

引用方法

研究やプロジェクトで Crawl4AI MCP Server を使用する場合は、次の BibTeX エントリを使用して引用してください。

@software{crawl4ai_mcp_2025, author = {Melin, Bjorn}, title = {Crawl4AI MCP Server: High-performance Web Crawling for AI Assistants}, url = {https://github.com/BjornMelin/crawl4ai-mcp-server}, version = {1.0.0}, year = {2025}, month = {5} }

ライセンス

マサチューセッツ工科大学

-
security - not tested
F
license - not found
-
quality - not tested

remote-capable server

The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.

AI アシスタントがモデル コンテキスト プロトコルを通じて Web スクレイピング、クロール、および詳細な調査機能にアクセスできるようにする高性能サーバー。

  1. Crawl4AI MCP サーバー
    1. 概要
    2. ドキュメント
    3. 特徴
    4. プロジェクト構造
    5. はじめる
    6. 発達
    7. 展開
    8. MCPクライアントでの使用
    9. 構成
    10. ロードマップ
    11. 貢献
    12. サポート
    13. 引用方法
    14. ライセンス

Related MCP Servers

  • A
    security
    A
    license
    A
    quality
    A production-ready Model Context Protocol server that enables language models to leverage AI-powered web scraping capabilities, offering tools for transforming webpages to markdown, extracting structured data, and executing AI-powered web searches.
    Last updated -
    3
    16
    Python
    MIT License
    • Apple
  • -
    security
    A
    license
    -
    quality
    A Model Context Protocol server that enables AI assistants to perform advanced web scraping, crawling, searching, and data extraction through the Firecrawl API.
    Last updated -
    15,275
    MIT License
    • Apple
    • Linux
  • A
    security
    F
    license
    A
    quality
    A Model Context Protocol server that enables AI assistants to perform real-time web searches, retrieving up-to-date information from the internet via a Crawler API.
    Last updated -
    1
    44
    8
    JavaScript
    • Apple
    • Linux
  • -
    security
    A
    license
    -
    quality
    A Model Context Protocol server that provides real-time web search capabilities to AI assistants through pluggable search providers, currently integrated with the Brave Search API.
    Last updated -
    3
    TypeScript
    MIT License

View all related MCP servers

ID: qxqai2h895