⚠️ УВЕДОМЛЕНИЕ
СЕРВЕР MCP В НАСТОЯЩЕЕ ВРЕМЯ НАХОДИТСЯ В РАЗРАБОТКЕ
НЕ ГОТОВО К ПРОИЗВОДСТВЕННОМУ ИСПОЛЬЗОВАНИЮ
ОБНОВЛЕНИЕ БУДЕТ ПОСЛЕ ЗАВЕРШЕНИЯ РАБОТЫ
MCP-сервер Crawl4AI
🚀 Высокопроизводительный сервер MCP для Crawl4AI — позволяет помощникам ИИ получать доступ к веб-скрапингу, сканированию и глубокому исследованию через протокол Model Context. Быстрее и эффективнее, чем FireCrawl!
Обзор
Этот проект реализует пользовательский сервер Model Context Protocol (MCP), который интегрируется с Crawl4AI, библиотекой веб-скрейпинга и сканирования с открытым исходным кодом. Сервер развернут как удаленный сервер MCP на CloudFlare Workers, что позволяет помощникам ИИ, таким как Клод, получать доступ к мощным возможностям веб-скрейпинга Crawl4AI.
Related MCP server: Firecrawl MCP Server
Документация
Подробную информацию об этом проекте можно найти в следующей документации:
План миграции — Подробный план миграции с Firecrawl на Crawl4AI
Улучшенная архитектура — многопользовательская архитектура с гибкостью облачного провайдера
Руководство по внедрению — Технические подробности внедрения и примеры кода
Упрощение кодовой базы — подробности об упрощении кода и внедренных передовых методах
Функции
Сбор веб-данных
🌐 Извлечение данных с отдельных веб-страниц : извлечение контента с отдельных веб-страниц
🕸️ Веб-сканирование : сканирование веб-сайтов с настраиваемой глубиной и ограничениями по количеству страниц
🗺️ Обнаружение URL : сопоставление и обнаружение URL-адресов с начальной точки
🕸️ Асинхронное сканирование : эффективное сканирование целых веб-сайтов
Обработка контента
🔍 Глубокое исследование : проведите комплексное исследование на нескольких страницах.
📊 Извлечение структурированных данных : извлечение определенных данных с использованием селекторов CSS или извлечение на основе LLM.
🔎 Поиск контента : поиск по ранее просканированному контенту
Интеграция и безопасность
🔄 Интеграция с MCP : бесшовная интеграция с клиентами MCP (Claude Desktop и т. д.)
🔒 Аутентификация OAuth : безопасный доступ с соответствующей авторизацией
🔒 Варианты аутентификации : безопасный доступ через OAuth или API-ключ (токен на предъявителя)
⚡ Высокая производительность : оптимизирована для скорости и эффективности
Структура проекта
Начиная
Предпосылки
Установка
Клонируйте репозиторий:
git clone https://github.com/BjornMelin/crawl4ai-mcp-server.git cd crawl4ai-mcp-serverУстановить зависимости:
npm installНастройте пространство имен CloudFlare KV:
wrangler kv:namespace create CRAWL_DATAОбновите
wrangler.toml, указав идентификатор пространства имен KV:kv_namespaces = [ { binding = "CRAWL_DATA", id = "your-namespace-id" } ]
Разработка
Местное развитие
Запустите сервер разработки:
npm run devСервер будет доступен по адресу http://localhost:8787
Развертывание
Развертывание в CloudFlare Workers:
npm run deployВаш сервер будет доступен по URL-адресу CloudFlare Workers, назначенному вашему развернутому Worker.
Использование с клиентами MCP
Этот сервер реализует протокол контекста модели, позволяя помощникам ИИ получать доступ к его инструментам.
Аутентификация
Реализуйте аутентификацию OAuth с помощью workers-oauth-provider
Добавить аутентификацию ключа API с использованием токенов Bearer
Создать страницу входа и управление токенами
Подключение к MCP-клиенту
Используйте URL-адрес CloudFlare Workers, назначенный вашему развернутому Worker-у
В Claude Desktop или других клиентах MCP добавьте этот сервер в качестве источника инструментов
Доступные инструменты
crawl: сканирование веб-страниц с начального URL-адреса.getCrawl: Извлечение данных сканирования по идентификаторуlistCrawls: список всех обходов или фильтр по доменуsearch: Поиск индексированных документов по запросуextract: извлечение структурированного контента из URL-адреса
Конфигурация
Сервер можно настроить, изменив переменные среды в wrangler.toml :
MAX_CRAWL_DEPTH: Максимальная глубина сканирования веб-страниц (по умолчанию: 3)MAX_CRAWL_PAGES: Максимальное количество страниц для сканирования (по умолчанию: 100)API_VERSION: строка версии API (по умолчанию: «v1»)OAUTH_CLIENT_ID: идентификатор клиента OAuth для аутентификацииOAUTH_CLIENT_SECRET: секрет клиента OAuth для аутентификации
Дорожная карта
Проект разрабатывается с учетом следующих компонентов:
Настройка и конфигурация проекта : настройка CloudFlare Worker, конфигурация TypeScript
Схемы сервера и инструментов MCP : реализация сервера MCP с определениями инструментов
Адаптер Crawl4AI : интеграция с функционалом Crawl4AI
Аутентификация OAuth : реализация безопасной аутентификации
Оптимизация производительности : повышение скорости и надежности
Расширенные функции извлечения : улучшение возможностей извлечения структурированных данных.
Внося вклад
Вклады приветствуются! Пожалуйста, проверьте открытые проблемы или создайте новую, прежде чем начать работу над функцией или исправлением ошибки. Подробные инструкции см. в Руководстве по вкладу .
Поддерживать
Если у вас возникли проблемы или есть вопросы:
Открыть вопрос в репозитории GitHub
Проверьте документацию Crawl4AI.
Как цитировать
Если вы используете Crawl4AI MCP Server в своих исследованиях или проектах, пожалуйста, укажите ссылку на него, используя следующую запись BibTeX:
Лицензия
Appeared in Searches
- Web search and data extraction capabilities for AI assistants
- A guide to conducting thorough web-based research
- A service for downloading files from MEGA cloud storage
- Enabling deep research modes in AI tools like Kimi and ChatGPT
- A server for finding rental listings on platforms like Facebook, Craigslist, Zillow, and Realtor.com