Crawl4AI RAG MCP サーバー

Crawl4AIおよびSupabaseと統合されたModel Context Protocol (MCP)の強力な実装により、AI エージェントと AI コーディングアシスタントに高度な Web クロールと RAG 機能を提供します。

この MCP サーバーを使用すると、あらゆるものをスクレイピングし、その知識を RAG のどこでも使用できます。

主な目標は、このMCPサーバーをArchonに統合し、AIコーディングアシスタントがAIエージェントを構築するための知識エンジンとして進化させることです。Crawl4AI/RAG MCPサーバーの最初のバージョンは、近日中に大幅に改良される予定です。特に、より柔軟に設定できるようにすることで、異なる埋め込みモデルの使用や、Ollamaを使ったローカルでの実行が可能になります。

概要

このMCPサーバーは、AIエージェントがウェブサイトをクロールし、コンテンツをベクターデータベース（Supabase）に保存し、クロールしたコンテンツに対してRAGを実行できるようにするツールを提供します。このサーバーは、私が以前チャンネルで提供したMem0 MCPサーバーテンプレートに基づいて、MCPサーバー構築のベストプラクティスに従っています。

ビジョン

Crawl4AI RAG MCPサーバーはまだ始まりに過ぎません。今後の展望は以下の通りです。

Archon との統合: このシステムを直接Archonに組み込むことで、AI コーディングアシスタントが優れた AI エージェントを構築するための包括的な知識エンジンが作成されます。
複数の埋め込みモデル: OpenAI を超えて拡張し、完全な制御とプライバシーのために Ollama を使用してすべてをローカルで実行する機能を含む、さまざまな埋め込みモデルをサポートします。
高度な RAG 戦略: コンテキスト検索、遅延チャンキングなどの高度な検索手法を実装して、基本的な「単純な検索」を超え、特に Archon と統合することで RAG システムのパワーと精度を大幅に強化します。
強化されたチャンク化戦略: 例に重点を置き、各チャンクに明確で意味的に意味のあるセクションを作成する、Context 7 にヒントを得たチャンク化アプローチを実装して、検索精度を向上させます。
パフォーマンスの最適化: クロールとインデックス作成の速度を向上し、新しいドキュメントを「すばやく」インデックスして、AI コーディングアシスタントの同じプロンプト内で活用することがより現実的になります。

特徴

スマート URL 検出: さまざまな URL タイプ (通常の Web ページ、サイトマップ、テキストファイル) を自動的に検出して処理します。
再帰クロール: 内部リンクをたどってコンテンツを発見する
並列処理：複数のページを同時に効率的にクロールします
コンテンツチャンク: コンテンツをヘッダーとサイズでインテリジェントに分割し、処理効率を向上します。
ベクトル検索: クロールされたコンテンツに対して RAG を実行し、オプションでデータソースによるフィルタリングを行って精度を高めます。
ソースの取得: RAG プロセスをガイドするためにフィルタリングに使用できるソースを取得します。

ツール

サーバーは、次の 4 つの重要な Web クロールおよび検索ツールを提供します。

crawl_single_page : 単一のウェブページを素早くクロールし、そのコンテンツをベクターデータベースに保存します。
smart_crawl_url : 提供された URL の種類 (サイトマップ、llms-full.txt、または再帰的にクロールする必要がある通常の Web ページ) に基づいて、Web サイト全体をインテリジェントにクロールします。
get_available_sources : データベース内のすべての利用可能なソース（ドメイン）のリストを取得します。
perform_rag_query : オプションのソースフィルタリングを使用したセマンティック検索を使用して関連コンテンツを検索します

前提条件

MCP サーバーをコンテナとして実行する場合はDocker/Docker Desktop (推奨)
MCP サーバーを uv 経由で直接実行する場合はPython 3.12+
Supabase （RAG用データベース）
OpenAI API キー（埋め込みを生成するため）

インストール

Dockerの使用（推奨）

このリポジトリをクローンします:
git clone https://github.com/coleam00/mcp-crawl4ai-rag.git cd mcp-crawl4ai-rag
Docker イメージをビルドします。
docker build -t mcp/crawl4ai-rag --build-arg PORT=8051 .
以下の構成セクションに基づいて.envファイルを作成します。

uv を直接使用する（Docker なし）

このリポジトリをクローンします:
git clone https://github.com/coleam00/mcp-crawl4ai-rag.git cd mcp-crawl4ai-rag
uv がインストールされていない場合はインストールします。
pip install uv
仮想環境を作成してアクティブ化します。
uv venv .venv\Scripts\activate # on Mac/Linux: source .venv/bin/activate
依存関係をインストールします:
uv pip install -e . crawl4ai-setup
以下の構成セクションに基づいて.envファイルを作成します。

データベースのセットアップ

サーバーを実行する前に、pgvector 拡張機能を使用してデータベースを設定する必要があります。

SupabaseダッシュボードのSQLエディタに移動します（必要に応じて最初に新しいプロジェクトを作成します）。
新しいクエリを作成し、 crawled_pages.sqlの内容を貼り付けます。
クエリを実行して必要なテーブルと関数を作成します

構成

次の変数を含む.envファイルをプロジェクトルートに作成します。

# MCP Server Configuration
HOST=0.0.0.0
PORT=8051
TRANSPORT=sse

# OpenAI API Configuration
OPENAI_API_KEY=your_openai_api_key

# Supabase Configuration
SUPABASE_URL=your_supabase_project_url
SUPABASE_SERVICE_KEY=your_supabase_service_key

サーバーの実行

Dockerの使用

docker run --env-file .env -p 8051:8051 mcp/crawl4ai-rag

Pythonの使用

uv run src/crawl4ai_mcp.py

サーバーは起動し、構成されたホストとポートでリッスンします。

MCPクライアントとの統合

SSE構成

SSE トランスポートを使用してサーバーを実行したら、次の構成を使用してサーバーに接続できます。

{
  "mcpServers": {
    "crawl4ai-rag": {
      "transport": "sse",
      "url": "http://localhost:8051/sse"
    }
  }
}

Windsurf ユーザーへの注意: 設定ではurlの代わりにserverUrlを使用してください。
{ "mcpServers": { "crawl4ai-rag": { "transport": "sse", "serverUrl": "http://localhost:8051/sse" } } }
Dockerユー��ーへの注意：クライアントが別のコンテナで実行されている場合は、 localhostではなくhost.docker.internal使用してください。これは、n8n内でこのMCPサーバーを使用している場合に適用されます。

標準入出力設定

このサーバーを、Claude Desktop、Windsurf、またはその他の MCP クライアントの MCP 構成に追加します。

{
  "mcpServers": {
    "crawl4ai-rag": {
      "command": "python",
      "args": ["path/to/crawl4ai-mcp/src/crawl4ai_mcp.py"],
      "env": {
        "TRANSPORT": "stdio",
        "OPENAI_API_KEY": "your_openai_api_key",
        "SUPABASE_URL": "your_supabase_url",
        "SUPABASE_SERVICE_KEY": "your_supabase_service_key"
      }
    }
  }
}

Stdio 構成の Docker

{
  "mcpServers": {
    "crawl4ai-rag": {
      "command": "docker",
      "args": ["run", "--rm", "-i", 
               "-e", "TRANSPORT", 
               "-e", "OPENAI_API_KEY", 
               "-e", "SUPABASE_URL", 
               "-e", "SUPABASE_SERVICE_KEY", 
               "mcp/crawl4ai"],
      "env": {
        "TRANSPORT": "stdio",
        "OPENAI_API_KEY": "your_openai_api_key",
        "SUPABASE_URL": "your_supabase_url",
        "SUPABASE_SERVICE_KEY": "your_supabase_service_key"
      }
    }
  }
}

独自のサーバーを構築する

この実装は、Webクロール機能を備えたより複雑なMCPサーバーを構築するための基盤を提供します。独自のサーバーを構築するには、以下の手順に従ってください。

@mcp.tool()デコレータを使用してメソッドを作成し、独自のツールを追加します。
独自の依存関係を追加するための独自のライフスパン関数を作成する
必要なヘルパー関数についてはutils.pyファイルを変更します。
より特殊なクローラーを追加してクロール機能を拡張します

This server cannot be installed

security - not tested

license - permissive license

quality - not tested

How are these scores calculated?

remote-capable server

The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.

Web クローリングと RAG 実装により、AI エージェントが Web サイトをスクレイピングし、クロールされたコンテンツに対してセマンティック検索を実行し、すべてを Supabase に保存して永続的な知識検索が可能になります。

Related MCP Servers

MCP-RAG Server
sourangshupal
-
security
F
license
-
quality
Implements Retrieval-Augmented Generation (RAG) using GroundX and OpenAI, allowing users to ingest documents and perform semantic searches with advanced context handling through Modern Context Processing (MCP).
Last updated -
4
Python
Browser Automation MCP Server
Raghu6798
-
security
F
license
-
quality
Enables intelligent web scraping through a browser automation tool that can search Google, navigate to webpages, and extract content from various websites including GitHub, Stack Overflow, and documentation sites.
Last updated -
1
Python
RAG-MCP Server
plaban1981
-
security
A
license
-
quality
A server that integrates Retrieval-Augmented Generation (RAG) with the Model Control Protocol (MCP) to provide web search capabilities and document analysis for AI assistants.
Last updated -
2
Python
Apache 2.0
Crawl4AI RAG MCP Server
Chillbruhhh
-
security
A
license
-
quality
Provides AI agents and coding assistants with advanced web crawling and RAG capabilities, allowing them to scrape websites and leverage that knowledge through various retrieval strategies.
Last updated -
1
MIT License

View all related MCP servers

Crawl4AI RAG MCP Server

概要