Мощная реализация протокола контекста модели (MCP), интегрированная с Crawl4AI и Supabase для предоставления агентам ИИ и помощникам по кодированию расширенными возможностями веб-сканирования и RAG.
С помощью этого MCP-сервера вы можете извлечь данные из чего угодно, а затем использовать эти знания где угодно для RAG.
Основная цель — перенести этот сервер MCP в Archon , поскольку я развиваю его, чтобы он стал скорее движком знаний для помощников по кодированию ИИ для создания агентов ИИ. Эта первая версия сервера Crawl4AI/RAG MCP будет значительно улучшена в ближайшее время, особенно в плане ее настройки, чтобы вы могли использовать различные модели встраивания и запускать все локально с помощью Ollama.
Обзор
Этот сервер MCP предоставляет инструменты, которые позволяют агентам ИИ сканировать веб-сайты, хранить контент в векторной базе данных (Supabase) и выполнять RAG над просканированным контентом. Он следует лучшим практикам создания серверов MCP на основе шаблона сервера Mem0 MCP, который я ранее предоставил на своем канале.
Зрение
Сервер Crawl4AI RAG MCP — это только начало. Вот куда мы направляемся:
- Интеграция с Archon : встраивание этой системы непосредственно в Archon для создания комплексного механизма знаний для помощников по кодированию ИИ с целью создания более эффективных агентов ИИ.
- Множественные модели встраивания : выход за рамки OpenAI для поддержки различных моделей встраивания, включая возможность локального запуска всего с помощью Ollama для полного контроля и конфиденциальности.
- Расширенные стратегии RAG : внедрение сложных методов поиска, таких как контекстный поиск, позднее фрагментирование и другие, чтобы выйти за рамки базовых «наивных поисков» и значительно повысить мощность и точность системы RAG, особенно при ее интеграции с Archon.
- Улучшенная стратегия фрагментации : реализация подхода к фрагментации, вдохновленного Context 7, который фокусируется на примерах и создает отдельные, семантически значимые разделы для каждого фрагмента, повышая точность поиска.
- Оптимизация производительности : увеличение скорости сканирования и индексирования, что делает более реалистичной «быструю» индексацию новой документации, а затем ее использование в том же запросе в помощнике по кодированию на основе ИИ.
Функции
- Интеллектуальное определение URL-адресов : автоматически обнаруживает и обрабатывает различные типы URL-адресов (обычные веб-страницы, карты сайтов, текстовые файлы)
- Рекурсивное сканирование : прохождение внутренних ссылок для обнаружения контента.
- Параллельная обработка : эффективно сканирует несколько страниц одновременно.
- Разделение контента на части : интеллектуальное разделение контента по заголовкам и размеру для лучшей обработки.
- Векторный поиск : выполняет RAG по просканированному контенту, опционально фильтруя по источнику данных для точности.
- Извлечение источника : извлечение источников, доступных для фильтрации, для руководства процессом RAG.
Инструменты
Сервер предоставляет четыре основных инструмента веб-сканирования и поиска:
crawl_single_page
: быстрое сканирование одной веб-страницы и сохранение ее содержимого в векторной базе данныхsmart_crawl_url
: интеллектуальное сканирование всего веб-сайта на основе предоставленного типа URL-адреса (карта сайта, llms-full.txt или обычная веб-страница, которую необходимо сканировать рекурсивно)get_available_sources
: Получить список всех доступных источников (доменов) в базе данныхperform_rag_query
: Поиск релевантного контента с использованием семантического поиска с дополнительной фильтрацией источника
Предпосылки
- Docker/Docker Desktop , если сервер MCP запущен как контейнер (рекомендуется)
- Python 3.12+, если сервер MCP запущен напрямую через uv
- Supabase (база данных для RAG)
- Ключ API OpenAI (для генерации вложений)
Установка
Использование Docker (рекомендуется)
- Клонируйте этот репозиторий:
- Создайте образ Docker:
- Создайте файл
.env
на основе раздела конфигурации ниже.
Использование uv напрямую (без Docker)
- Клонируйте этот репозиторий:
- Установите uv, если у вас его нет:
- Создайте и активируйте виртуальную среду:
- Установить зависимости:
- Создайте файл
.env
на основе раздела конфигурации ниже.
Настройка базы данных
Перед запуском сервера необходимо настроить базу данных с расширением pgvector:
- Перейдите в редактор SQL на панели управления Supabase (при необходимости сначала создайте новый проект).
- Создайте новый запрос и вставьте содержимое
crawled_pages.sql
- Выполнить запрос для создания необходимых таблиц и функций.
Конфигурация
Создайте файл .env
в корне проекта со следующими переменными:
Запуск сервера
Использование Докера
Использование Python
Сервер запустится и будет прослушивать настроенный хост и порт.
Интеграция с клиентами MCP
Конфигурация SSE
После того, как сервер будет запущен с транспортом SSE, вы сможете подключиться к нему, используя следующую конфигурацию:
Примечание для пользователей Windsurf : используйте
serverUrl
вместоurl
в вашей конфигурации:Примечание для пользователей Docker : используйте
host.docker.internal
вместоlocalhost
, если ваш клиент работает в другом контейнере. Это будет применяться, если вы используете этот сервер MCP в n8n!
Конфигурация Stdio
Добавьте этот сервер в конфигурацию MCP для Claude Desktop, Windsurf или любого другого клиента MCP:
Docker с конфигурацией Stdio
Создание собственного сервера
Эта реализация обеспечивает основу для создания более сложных серверов MCP с возможностями веб-сканирования. Чтобы создать свой собственный:
- Добавьте свои собственные инструменты, создав методы с помощью декоратора
@mcp.tool()
- Создайте собственную функцию жизненного цикла, чтобы добавить собственные зависимости
- Измените файл
utils.py
для любых необходимых вам вспомогательных функций. - Расширьте возможности сканирования, добавив больше специализированных сканеров.
This server cannot be installed
remote-capable server
The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.
Реализация веб-сканирования и RAG, позволяющая агентам ИИ сканировать веб-сайты и выполнять семантический поиск по просканированному контенту, сохраняя все данные в Supabase для постоянного извлечения знаний.
Related MCP Servers
- AsecurityAlicenseAqualityA server that provides web scraping and intelligent content searching capabilities using the Firecrawl API, enabling AI agents to extract structured data from websites and perform content searches.Last updated -52TypeScriptMIT License
- -securityAlicense-qualityEnables iterative deep research by integrating AI agents with search engines, web scraping, and large language models for efficient data gathering and comprehensive reporting.Last updated -28117TypeScriptMIT License
- -securityFlicense-qualityImplements Retrieval-Augmented Generation (RAG) using GroundX and OpenAI, allowing users to ingest documents and perform semantic searches with advanced context handling through Modern Context Processing (MCP).Last updated -1Python
- -securityFlicense-qualityEnables intelligent web scraping through a browser automation tool that can search Google, navigate to webpages, and extract content from various websites including GitHub, Stack Overflow, and documentation sites.Last updated -1Python