Integrations
Allows running the MCP server as a container, with configuration options for both SSE and stdio transports
Supports integration with n8n, with special network configuration instructions for Docker environments
Planned future integration to enable running embedding models locally for complete privacy and control
Crawl4AIおよびSupabaseと統合されたModel Context Protocol (MCP)の強力な実装により、AI エージェントと AI コーディング アシスタントに高度な Web クロールと RAG 機能を提供します。
この MCP サーバーを使用すると、あらゆるものをスクレイピングし、その知識を RAG のどこでも使用できます。
主な目標は、このMCPサーバーをArchonに統合し、AIコーディングアシスタントがAIエージェントを構築するための知識エンジンとして進化させることです。Crawl4AI/RAG MCPサーバーの最初のバージョンは、近日中に大幅に改良される予定です。特に、より柔軟に設定できるようにすることで、異なる埋め込みモデルの使用や、Ollamaを使ったローカルでの実行が可能になります。
概要
このMCPサーバーは、AIエージェントがウェブサイトをクロールし、コンテンツをベクターデータベース(Supabase)に保存し、クロールしたコンテンツに対してRAGを実行できるようにするツールを提供します。このサーバーは、私が以前チャンネルで提供したMem0 MCPサーバーテンプレートに基づいて、MCPサーバー構築のベストプラクティスに従っています。
ビジョン
Crawl4AI RAG MCPサーバーはまだ始まりに過ぎません。今後の展望は以下の通りです。
- Archon との統合: このシステムを直接Archonに組み込むことで、AI コーディング アシスタントが優れた AI エージェントを構築するための包括的な知識エンジンが作成されます。
- 複数の埋め込みモデル: OpenAI を超えて拡張し、完全な制御とプライバシーのために Ollama を使用してすべてをローカルで実行する機能を含む、さまざまな埋め込みモデルをサポートします。
- 高度な RAG 戦略: コンテキスト検索、遅延チャンキングなどの高度な検索手法を実装して、基本的な「単純な検索」を超え、特に Archon と統合することで RAG システムのパワーと精度を大幅に強化します。
- 強化されたチャンク化戦略: 例に重点を置き、各チャンクに明確で意味的に意味のあるセクションを作成する、Context 7 にヒントを得たチャンク化アプローチを実装して、検索精度を向上させます。
- パフォーマンスの最適化: クロールとインデックス作成の速度を向上し、新しいドキュメントを「すばやく」インデックスして、AI コーディング アシスタントの同じプロンプト内で活用することがより現実的になります。
特徴
- スマート URL 検出: さまざまな URL タイプ (通常の Web ページ、サイトマップ、テキスト ファイル) を自動的に検出して処理します。
- 再帰クロール: 内部リンクをたどってコンテンツを発見する
- 並列処理:複数のページを同時に効率的にクロールします
- コンテンツチャンク: コンテンツをヘッダーとサイズでインテリジェントに分割し、処理効率を向上します。
- ベクトル検索: クロールされたコンテンツに対して RAG を実行し、オプションでデータソースによるフィルタリングを行って精度を高めます。
- ソースの取得: RAG プロセスをガイドするためにフィルタリングに使用できるソースを取得します。
ツール
サーバーは、次の 4 つの重要な Web クロールおよび検索ツールを提供します。
crawl_single_page
: 単一のウェブページを素早くクロールし、そのコンテンツをベクターデータベースに保存します。smart_crawl_url
: 提供された URL の種類 (サイトマップ、llms-full.txt、または再帰的にクロールする必要がある通常の Web ページ) に基づいて、Web サイト全体をインテリジェントにクロールします。get_available_sources
: データベース内のすべての利用可能なソース(ドメイン)のリストを取得します。perform_rag_query
: オプションのソースフィルタリングを使用したセマンティック検索を使用して関連コンテンツを検索します
前提条件
- MCP サーバーをコンテナとして実行する場合はDocker/Docker Desktop (推奨)
- MCP サーバーを uv 経由で直接実行する場合はPython 3.12+
- Supabase (RAG用データベース)
- OpenAI API キー(埋め込みを生成するため)
インストール
Dockerの使用(推奨)
- このリポジトリをクローンします:Copy
- Docker イメージをビルドします。Copy
- 以下の構成セクションに基づいて
.env
ファイルを作成します。
uv を直接使用する(Docker なし)
- このリポジトリをクローンします:Copy
- uv がインストールされていない場合はインストールします。Copy
- 仮想環境を作成してアクティブ化します。Copy
- 依存関係をインストールします:Copy
- 以下の構成セクションに基づいて
.env
ファイルを作成します。
データベースのセットアップ
サーバーを実行する前に、pgvector 拡張機能を使用してデータベースを設定する必要があります。
- SupabaseダッシュボードのSQLエディタに移動します(必要に応じて最初に新しいプロジェクトを作成します)。
- 新しいクエリを作成し、
crawled_pages.sql
の内容を貼り付けます。 - クエリを実行して必要なテーブルと関数を作成します
構成
次の変数を含む.env
ファイルをプロジェクト ルートに作成します。
サーバーの実行
Dockerの使用
Pythonの使用
サーバーは起動し、構成されたホストとポートでリッスンします。
MCPクライアントとの統合
SSE構成
SSE トランスポートを使用してサーバーを実行したら、次の構成を使用してサーバーに接続できます。
Windsurf ユーザーへの注意: 設定では
url
の代わりにserverUrl
を使用してください。CopyDockerユーザーへの注意:クライアントが別のコンテナで実行されている場合は、
localhost
ではなくhost.docker.internal
使用してください。これは、n8n内でこのMCPサーバーを使用している場合に適用されます。
標準入出力設定
このサーバーを、Claude Desktop、Windsurf、またはその他の MCP クライアントの MCP 構成に追加します。
Stdio 構成の Docker
独自のサーバーを構築する
この実装は、Webクロール機能を備えたより複雑なMCPサーバーを構築するための基盤を提供します。独自のサーバーを構築するには、以下の手順に従ってください。
@mcp.tool()
デコレータを使用してメソッドを作成し、独自のツールを追加します。- 独自の依存関係を追加するための独自のライフスパン関数を作成する
- 必要なヘルパー関数については
utils.py
ファイルを変更します。 - より特殊なクローラーを追加してクロール機能を拡張します
This server cannot be installed
Web クローリングと RAG 実装により、AI エージェントが Web サイトをスクレイピングし、クロールされたコンテンツに対してセマンティック検索を実行し、すべてを Supabase に保存して永続的な知識検索が可能になります。
Related MCP Servers
- AsecurityAlicenseAqualityThis server enables AI systems to integrate with Tavily's search and data extraction tools, providing real-time web information access and domain-specific searches.Last updated -25,133334JavaScriptMIT License
- AsecurityAlicenseAqualityA server that provides web scraping and intelligent content searching capabilities using the Firecrawl API, enabling AI agents to extract structured data from websites and perform content searches.Last updated -52TypeScriptMIT License
- -securityAlicense-qualityEmpowers AI agents to perform web browsing, automation, and scraping tasks with minimal supervision using natural language instructions and Selenium.Last updated -1PythonApache 2.0
- -security-license-qualityIntegrates with Dumpling AI to provide data scraping, content processing, knowledge management, and code execution capabilities through tools for web interactions, document handling, and AI services.Last updated -2JavaScriptMIT License