Мощная реализация протокола контекста модели (MCP), интегрированная с Crawl4AI и Supabase для предоставления агентам ИИ и помощникам по кодированию расширенными возможностями веб-сканирования и RAG.
С помощью этого MCP-сервера вы можете извлечь данные из чего угодно, а затем использовать эти знания где угодно для RAG.
Основная цель — перенести этот сервер MCP в Archon , поскольку я развиваю его, чтобы он стал скорее движком знаний для помощников по кодированию ИИ для создания агентов ИИ. Эта первая версия сервера Crawl4AI/RAG MCP будет значительно улучшена в ближайшее время, особенно в плане ее настройки, чтобы вы могли использовать различные модели встраивания и запускать все локально с помощью Ollama.
Обзор
Этот сервер MCP предоставляет инструменты, которые позволяют агентам ИИ сканировать веб-сайты, хранить контент в векторной базе данных (Supabase) и выполнять RAG над просканированным контентом. Он следует лучшим практикам создания серверов MCP на основе шаблона сервера Mem0 MCP, который я ранее предоставил на своем канале.
Зрение
Сервер Crawl4AI RAG MCP — это только начало. Вот куда мы направляемся:
Интеграция с Archon : встраивание этой системы непосредственно в Archon для создания комплексного механизма знаний для помощников по кодированию ИИ с целью создания более эффективных агентов ИИ.
Множественные модели встраивания : выход за рамки OpenAI для поддержки различных моделей встраивания, включая возможность локального запуска всего с помощью Ollama для полного контроля и конфиденциальности.
Расширенные стратегии RAG : внедрение сложных методов поиска, таких как контекстный поиск, позднее фрагментирование и другие, чтобы выйти за рамки базовых «наивных поисков» и значительно повысить мощность и точность системы RAG, особенно при ее интеграции с Archon.
Улучшенная стратегия фрагментации : реализация подхода к фрагментации, вдохновленного Context 7, который фокусируется на примерах и создает отдельные, семантически значимые разделы для каждого фрагмента, повышая точность поиска.
Оптимизация производительности : увеличение скорости сканирования и индексирования, что делает более реалистичной «быструю» индексацию новой документации, а затем ее использование в том же запросе в помощнике по кодированию на основе ИИ.
Функции
Интеллектуальное определение URL-адресов : автоматически обнаруживает и обрабатывает различные типы URL-адресов (обычные веб-страницы, карты сайтов, текстовые файлы)
Рекурсивное сканирование : прохождение внутренних ссылок для обнаружения контента.
Параллельная обработка : эффективно сканирует несколько страниц одновременно.
Разделение контента на части : интеллектуальное разделение контента по заголовкам и размеру для лучшей обработки.
Векторный поиск : выполняет RAG по просканированному контенту, опционально фильтруя по источнику данных для точности.
Извлечение источника : извлечение источников, доступных для фильтрации, для руководства процессом RAG.
Инструменты
Сервер предоставляет четыре основных инструмента веб-сканирования и поиска:
crawl_single_page
: быстрое сканирование одной веб-страницы и сохранение ее содержимого в векторной базе данныхsmart_crawl_url
: интеллектуальное сканирование всего веб-сайта на основе предоставленного типа URL-адреса (карта сайта, llms-full.txt или обычная веб-страница, которую необходимо сканировать рекурсивно)get_available_sources
: Получить список всех доступных источников (доменов) в базе данныхperform_rag_query
: Поиск релевантного контента с использованием семантического поиска с дополнительной фильтрацией источника
Предпосылки
Docker/Docker Desktop , если сервер MCP запущен как контейнер (рекомендуется)
Python 3.12+, если сервер MCP запущен напрямую через uv
Supabase (база данных для RAG)
Ключ API OpenAI (для генерации вложений)
Установка
Использование Docker (рекомендуется)
Клонируйте этот репозиторий:
git clone https://github.com/coleam00/mcp-crawl4ai-rag.git cd mcp-crawl4ai-ragСоздайте образ Docker:
docker build -t mcp/crawl4ai-rag --build-arg PORT=8051 .Создайте файл
.env
на основе раздела конфигурации ниже.
Использование uv напрямую (без Docker)
Клонируйте этот репозиторий:
git clone https://github.com/coleam00/mcp-crawl4ai-rag.git cd mcp-crawl4ai-ragУстановите uv, если у вас его нет:
pip install uvСоздайте и активируйте виртуальную среду:
uv venv .venv\Scripts\activate # on Mac/Linux: source .venv/bin/activateУстановить зависимости:
uv pip install -e . crawl4ai-setupСоздайте файл
.env
на основе раздела конфигурации ниже.
Настройка базы данных
Перед запуском сервера необходимо настроить базу данных с расширением pgvector:
Перейдите в редактор SQL на панели управления Supabase (при необходимости сначала создайте новый проект).
Создайте новый запрос и вставьте содержимое
crawled_pages.sql
Выполнить запрос для создания необходимых таблиц и функций.
Конфигурация
Создайте файл .env
в корне проекта со следующими переменными:
Запуск сервера
Использование Докера
Использование Python
Сервер запустится и будет прослушивать настроенный хост и порт.
Интеграция с клиентами MCP
Конфигурация SSE
После того, как сервер будет запущен с транспортом SSE, вы сможете подключиться к нему, используя следующую конфигурацию:
Примечание для пользователей Windsurf : используйте
serverUrl
вместоurl
в вашей конфигурации:{ "mcpServers": { "crawl4ai-rag": { "transport": "sse", "serverUrl": "http://localhost:8051/sse" } } }Примечание для пользователей Docker : используйте
host.docker.internal
вместоlocalhost
, если ваш клиент работает в другом контейнере. Это будет применяться, если вы используете этот сервер MCP в n8n!
Конфигурация Stdio
Добавьте этот сервер в конфигурацию MCP для Claude Desktop, Windsurf или любого другого клиента MCP:
Docker с конфигурацией Stdio
Создание собственного сервера
Эта реализация обеспечивает основу для создания более сложных серверов MCP с возможностями веб-сканирования. Чтобы создать свой собственный:
Добавьте свои собственные инструменты, создав методы с помощью декоратора
@mcp.tool()
Создайте собственную функцию жизненного цикла, чтобы добавить собственные зависимости
Измените файл
utils.py
для любых необходимых вам вспомогательных функций.Расширьте возможности сканирования, добавив больше специализированных сканеров.
This server cannot be installed
remote-capable server
The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.
Реализация веб-сканирования и RAG, позволяющая агентам ИИ сканировать веб-сайты и выполнять семантический поиск по просканированному контенту, сохраняя все данные в Supabase для постоянного извлечения знаний.
Related MCP Servers
- -securityFlicense-qualityImplements Retrieval-Augmented Generation (RAG) using GroundX and OpenAI, allowing users to ingest documents and perform semantic searches with advanced context handling through Modern Context Processing (MCP).Last updated -4
- -securityFlicense-qualityEnables intelligent web scraping through a browser automation tool that can search Google, navigate to webpages, and extract content from various websites including GitHub, Stack Overflow, and documentation sites.Last updated -1
- -securityAlicense-qualityA server that integrates Retrieval-Augmented Generation (RAG) with the Model Control Protocol (MCP) to provide web search capabilities and document analysis for AI assistants.Last updated -3Apache 2.0
- -securityAlicense-qualityProvides AI agents and coding assistants with advanced web crawling and RAG capabilities, allowing them to scrape websites and leverage that knowledge through various retrieval strategies.Last updated -1MIT License