⚠️お知らせ

MCPサーバーは現在開発中です
実稼働環境での使用には適していません
運用開始時に更新されます

Crawl4AI MCP サーバー

🚀 Crawl4AI向け高性能MCPサーバー - AIアシスタントがモデルコンテキストプロトコル（MCP）を介してWebスクレイピング、クローリング、ディープリサーチにアクセスできるようにします。FireCrawlよりも高速で効率的です！

概要

このプロジェクトは、オープンソースのウェブスクレイピングおよびクローリングライブラリであるCrawl4AIと統合するカスタムモデルコンテキストプロトコル（MCP）サーバーを実装します。このサーバーはCloudFlare Workers上にリモートMCPサーバーとしてデプロイされ、ClaudeのようなAIアシスタントがCrawl4AIの強力なウェブスクレイピング機能にアクセスできるようにします。

Related MCP server: Firecrawl MCP Server

ドキュメント

このプロジェクトの包括的な詳細については、次のドキュメントを参照してください。

移行計画- Firecrawl から Crawl4AI への移行の詳細な計画
拡張アーキテクチャ- クラウドプロバイダーの柔軟性を備えたマルチテナントアーキテクチャ
実装ガイド- 技術的な実装の詳細とコード例
コードベースの簡素化- 実装されたコードの簡素化とベストプラクティスの詳細

特徴

Webデータ取得

🌐単一ウェブページスクレイピング：個々のウェブページからコンテンツを抽出します
🕸️ Web クロール: 設定可能な深さとページ制限で Web サイトをクロールします
🗺️ URL 検出: 開始点から URL をマップして検出します
🕸️非同期クロール：ウェブサイト全体を効率的にクロールする

コンテンツ処理

🔍ディープリサーチ：複数のページにわたる包括的なリサーチを実施
📊構造化データ抽出: CSSセレクターまたはLLMベースの抽出を使用して特定のデータを抽出します
🔎コンテンツ検索：以前にクロールしたコンテンツを検索する

統合とセキュリティ

🔄 MCP 統合：MCP クライアント（Claude Desktop など）とのシームレスな統合
🔒 OAuth認証：適切な認証による安全なアクセス
🔒認証オプション: OAuth または API キー (ベアラートークン) による安全なアクセス
⚡高性能：速度と効率を最適化

プロジェクト構造

crawl4ai-mcp/
├── src/
│   ├── index.ts               # Main entry point with OAuth provider setup
│   ├── auth-handler.ts        # Authentication handler
│   ├── mcp-server.ts          # MCP server implementation
│   ├── crawl4ai-adapter.ts    # Adapter for Crawl4AI API
│   ├── tool-schemas/          # MCP tool schema definitions
│   │   └── [...].ts           # Tool schemas
│   ├── handlers/
│   │   ├── crawl.ts           # Web crawling implementation
│   │   ├── search.ts          # Search functionality
│   │   └── extract.ts         # Content extraction
│   └── utils/                 # Utility functions
├── tests/                     # Test cases
├── .github/                   # GitHub configuration
├── wrangler.toml              # CloudFlare Workers configuration
├── tsconfig.json              # TypeScript configuration
├── package.json               # Node.js dependencies
└── README.md                  # Project documentation

はじめる

前提条件

Node.js (v18以上)
npm
Wrangler (CloudFlare Workers CLI)
CloudFlareアカウント

インストール

リポジトリをクローンします。

git clone https://github.com/BjornMelin/crawl4ai-mcp-server.git
cd crawl4ai-mcp-server

依存関係をインストールします:
```
npm install
```
CloudFlare KV 名前空間を設定します。
```
wrangler kv:namespace create CRAWL_DATA
```

KV 名前空間 ID を使用してwrangler.toml更新します。

kv_namespaces = [
  { binding = "CRAWL_DATA", id = "your-namespace-id" }
]

発達

地域開発

開発サーバーを起動します。
```
npm run dev
```
サーバーはhttp://localhost:8787で利用できます。

展開

CloudFlare Workers にデプロイする:
```
npm run deploy
```
サーバーは、デプロイされたワーカーに割り当てられた CloudFlare Workers URL で利用できるようになります。

MCPクライアントでの使用

このサーバーはモデルコンテキストプロトコルを実装し、AI アシスタントがそのツールにアクセスできるようにします。

認証

workers-oauth-providerを使用してOAuth認証を実装する
ベアラートークンを使用したAPIキー認証を追加する
ログインページとトークン管理を作成する

MCPクライアントへの接続

デプロイされたワーカーに割り当てられた CloudFlare Workers URL を使用します。
Claude Desktopまたは他のMCPクライアントで、このサーバーをツールソースとして追加します。

利用可能なツール

crawl : 開始 URL から Web ページをクロールする
getCrawl : IDでクロールデータを取得する
listCrawls : すべてのクロールを一覧表示するか、ドメインでフィルタリングする
search : クエリでインデックスされたドキュメントを検索する
extract : URLから構造化コンテンツを抽出する

構成

サーバーは、 wrangler.tomlの環境変数を変更することで設定できます。

MAX_CRAWL_DEPTH : ウェブクロールの最大深度（デフォルト: 3）
MAX_CRAWL_PAGES : クロールする最大ページ数（デフォルト: 100）
API_VERSION : APIバージョン文字列（デフォルト: "v1"）
OAUTH_CLIENT_ID : 認証用のOAuthクライアントID
OAUTH_CLIENT_SECRET : 認証用のOAuthクライアントシークレット

ロードマップ

このプロジェクトは、以下の要素を念頭に置いて開発されています。

プロジェクトのセットアップと構成: CloudFlare Worker のセットアップ、TypeScript の構成
MCP サーバーとツールスキーマ: ツール定義を使用した MCP サーバーの実装
Crawl4AI アダプター: Crawl4AI 機能との統合
OAuth認証：安全な認証実装
パフォーマンスの最適化：速度と信頼性の向上
高度な抽出機能：構造化データ抽出機能の向上

貢献

貢献を歓迎します！機能追加やバグ修正の作業を始める前に、未解決の問題を確認するか、新しい問題を作成してください。詳細なガイドラインについては、貢献ガイドラインをご覧ください。

サポート

問題が発生した場合や質問がある場合:

GitHubリポジトリで問題を開く
Crawl4AIのドキュメントを確認する
モデルコンテキストプロトコル仕様を参照してください

引用方法

研究やプロジェクトで Crawl4AI MCP Server を使用する場合は、次の BibTeX エントリを使用して引用してください。

@software{crawl4ai_mcp_2025,
  author = {Melin, Bjorn},
  title = {Crawl4AI MCP Server: High-performance Web Crawling for AI Assistants},
  url = {https://github.com/BjornMelin/crawl4ai-mcp-server},
  version = {1.0.0},
  year = {2025},
  month = {5}
}

ライセンス

マサチューセッツ工科大学

Crawl4AI MCP Server