⚠️お知らせ
MCPサーバーは現在開発中です
実稼働環境での使用には適していません
運用開始時に更新されます
Crawl4AI MCP サーバー
🚀 Crawl4AI向け高性能MCPサーバー - AIアシスタントがモデルコンテキストプロトコル(MCP)を介してWebスクレイピング、クローリング、ディープリサーチにアクセスできるようにします。FireCrawlよりも高速で効率的です!
概要
このプロジェクトは、オープンソースのウェブスクレイピングおよびクローリングライブラリであるCrawl4AIと統合するカスタムモデルコンテキストプロトコル(MCP)サーバーを実装します。このサーバーはCloudFlare Workers上にリモートMCPサーバーとしてデプロイされ、ClaudeのようなAIアシスタントがCrawl4AIの強力なウェブスクレイピング機能にアクセスできるようにします。
Related MCP server: Firecrawl MCP Server
ドキュメント
このプロジェクトの包括的な詳細については、次のドキュメントを参照してください。
移行計画- Firecrawl から Crawl4AI への移行の詳細な計画
拡張アーキテクチャ- クラウドプロバイダーの柔軟性を備えたマルチテナントアーキテクチャ
実装ガイド- 技術的な実装の詳細とコード例
コードベースの簡素化- 実装されたコードの簡素化とベストプラクティスの詳細
特徴
Webデータ取得
🌐単一ウェブページスクレイピング:個々のウェブページからコンテンツを抽出します
🕸️ Web クロール: 設定可能な深さとページ制限で Web サイトをクロールします
🗺️ URL 検出: 開始点から URL をマップして検出します
🕸️非同期クロール:ウェブサイト全体を効率的にクロールする
コンテンツ処理
🔍ディープリサーチ:複数のページにわたる包括的なリサーチを実施
📊構造化データ抽出: CSSセレクターまたはLLMベースの抽出を使用して特定のデータを抽出します
🔎コンテンツ検索:以前にクロールしたコンテンツを検索する
統合とセキュリティ
🔄 MCP 統合:MCP クライアント(Claude Desktop など)とのシームレスな統合
🔒 OAuth認証:適切な認証による安全なアクセス
🔒認証オプション: OAuth または API キー (ベアラー トークン) による安全なアクセス
⚡高性能:速度と効率を最適化
プロジェクト構造
はじめる
前提条件
インストール
リポジトリをクローンします。
git clone https://github.com/BjornMelin/crawl4ai-mcp-server.git cd crawl4ai-mcp-server依存関係をインストールします:
npm installCloudFlare KV 名前空間を設定します。
wrangler kv:namespace create CRAWL_DATAKV 名前空間 ID を使用して
wrangler.toml更新します。kv_namespaces = [ { binding = "CRAWL_DATA", id = "your-namespace-id" } ]
発達
地域開発
開発サーバーを起動します。
npm run devサーバーはhttp://localhost:8787で利用できます。
展開
CloudFlare Workers にデプロイする:
npm run deployサーバーは、デプロイされたワーカーに割り当てられた CloudFlare Workers URL で利用できるようになります。
MCPクライアントでの使用
このサーバーはモデルコンテキストプロトコルを実装し、AI アシスタントがそのツールにアクセスできるようにします。
認証
workers-oauth-providerを使用してOAuth認証を実装する
ベアラートークンを使用したAPIキー認証を追加する
ログインページとトークン管理を作成する
MCPクライアントへの接続
デプロイされたワーカーに割り当てられた CloudFlare Workers URL を使用します。
Claude Desktopまたは他のMCPクライアントで、このサーバーをツールソースとして追加します。
利用可能なツール
crawl: 開始 URL から Web ページをクロールするgetCrawl: IDでクロールデータを取得するlistCrawls: すべてのクロールを一覧表示するか、ドメインでフィルタリングするsearch: クエリでインデックスされたドキュメントを検索するextract: URLから構造化コンテンツを抽出する
構成
サーバーは、 wrangler.tomlの環境変数を変更することで設定できます。
MAX_CRAWL_DEPTH: ウェブクロールの最大深度(デフォルト: 3)MAX_CRAWL_PAGES: クロールする最大ページ数(デフォルト: 100)API_VERSION: APIバージョン文字列(デフォルト: "v1")OAUTH_CLIENT_ID: 認証用のOAuthクライアントIDOAUTH_CLIENT_SECRET: 認証用のOAuthクライアントシークレット
ロードマップ
このプロジェクトは、以下の要素を念頭に置いて開発されています。
プロジェクトのセットアップと構成: CloudFlare Worker のセットアップ、TypeScript の構成
MCP サーバーとツール スキーマ: ツール定義を使用した MCP サーバーの実装
Crawl4AI アダプター: Crawl4AI 機能との統合
OAuth認証:安全な認証実装
パフォーマンスの最適化:速度と信頼性の向上
高度な抽出機能:構造化データ抽出機能の向上
貢献
貢献を歓迎します!機能追加やバグ修正の作業を始める前に、未解決の問題を確認するか、新しい問題を作成してください。詳細なガイドラインについては、貢献ガイドラインをご覧ください。
サポート
問題が発生した場合や質問がある場合:
GitHubリポジトリで問題を開く
Crawl4AIのドキュメントを確認する
モデルコンテキストプロトコル仕様を参照してください
引用方法
研究やプロジェクトで Crawl4AI MCP Server を使用する場合は、次の BibTeX エントリを使用して引用してください。
ライセンス
Appeared in Searches
- Web search and data extraction capabilities for AI assistants
- A guide to conducting thorough web-based research
- A service for downloading files from MEGA cloud storage
- Enabling deep research modes in AI tools like Kimi and ChatGPT
- A server for finding rental listings on platforms like Facebook, Craigslist, Zillow, and Realtor.com