Integrations
Serves as the deployment platform for the MCP server, enabling the service to run on CloudFlare's edge network
⚠️ УВЕДОМЛЕНИЕ
СЕРВЕР MCP В НАСТОЯЩЕЕ ВРЕМЯ НАХОДИТСЯ В РАЗРАБОТКЕ
НЕ ГОТОВО К ПРОИЗВОДСТВЕННОМУ ИСПОЛЬЗОВАНИЮ
ОБНОВЛЕНИЕ БУДЕТ ПОСЛЕ ЗАВЕРШЕНИЯ РАБОТЫ
MCP-сервер Crawl4AI
🚀 Высокопроизводительный сервер MCP для Crawl4AI — позволяет помощникам ИИ получать доступ к веб-скрапингу, сканированию и глубокому исследованию через протокол Model Context. Быстрее и эффективнее, чем FireCrawl!
Обзор
Этот проект реализует пользовательский сервер Model Context Protocol (MCP), который интегрируется с Crawl4AI, библиотекой веб-скрейпинга и сканирования с открытым исходным кодом. Сервер развернут как удаленный сервер MCP на CloudFlare Workers, что позволяет помощникам ИИ, таким как Клод, получать доступ к мощным возможностям веб-скрейпинга Crawl4AI.
Документация
Подробную информацию об этом проекте можно найти в следующей документации:
- План миграции — Подробный план миграции с Firecrawl на Crawl4AI
- Улучшенная архитектура — многопользовательская архитектура с гибкостью облачного провайдера
- Руководство по внедрению — Технические подробности внедрения и примеры кода
- Упрощение кодовой базы — подробности об упрощении кода и внедренных передовых методах
Функции
Сбор веб-данных
- 🌐 Извлечение данных с отдельных веб-страниц : извлечение контента с отдельных веб-страниц
- 🕸️ Веб-сканирование : сканирование веб-сайтов с настраиваемой глубиной и ограничениями по количеству страниц
- 🗺️ Обнаружение URL : сопоставление и обнаружение URL-адресов с начальной точки
- 🕸️ Асинхронное сканирование : эффективное сканирование целых веб-сайтов
Обработка контента
- 🔍 Глубокое исследование : проведите комплексное исследование на нескольких страницах.
- 📊 Извлечение структурированных данных : извлечение определенных данных с использованием селекторов CSS или извлечение на основе LLM.
- 🔎 Поиск контента : поиск по ранее просканированному контенту
Интеграция и безопасность
- 🔄 Интеграция с MCP : бесшовная интеграция с клиентами MCP (Claude Desktop и т. д.)
- 🔒 Аутентификация OAuth : безопасный доступ с соответствующей авторизацией
- 🔒 Варианты аутентификации : безопасный доступ через OAuth или API-ключ (токен на предъявителя)
- ⚡ Высокая производительность : оптимизирована для скорости и эффективности
Структура проекта
Начиная
Предпосылки
Установка
- Клонируйте репозиторий:Copy
- Установить зависимости:Copy
- Настройте пространство имен CloudFlare KV:Copy
- Обновите
wrangler.toml
, указав идентификатор пространства имен KV:Copy
Разработка
Местное развитие
- Запустите сервер разработки:Copy
- Сервер будет доступен по адресу http://localhost:8787
Развертывание
- Развертывание в CloudFlare Workers:Copy
- Ваш сервер будет доступен по URL-адресу CloudFlare Workers, назначенному вашему развернутому Worker.
Использование с клиентами MCP
Этот сервер реализует протокол контекста модели, позволяя помощникам ИИ получать доступ к его инструментам.
Аутентификация
- Реализуйте аутентификацию OAuth с помощью workers-oauth-provider
- Добавить аутентификацию ключа API с использованием токенов Bearer
- Создать страницу входа и управление токенами
Подключение к MCP-клиенту
- Используйте URL-адрес CloudFlare Workers, назначенный вашему развернутому Worker-у
- В Claude Desktop или других клиентах MCP добавьте этот сервер в качестве источника инструментов
Доступные инструменты
crawl
: сканирование веб-страниц с начального URL-адреса.getCrawl
: Извлечение данных сканирования по идентификаторуlistCrawls
: список всех обходов или фильтр по доменуsearch
: Поиск индексированных документов по запросуextract
: извлечение структурированного контента из URL-адреса
Конфигурация
Сервер можно настроить, изменив переменные среды в wrangler.toml
:
MAX_CRAWL_DEPTH
: Максимальная глубина сканирования веб-страниц (по умолчанию: 3)MAX_CRAWL_PAGES
: Максимальное количество страниц для сканирования (по умолчанию: 100)API_VERSION
: строка версии API (по умолчанию: «v1»)OAUTH_CLIENT_ID
: идентификатор клиента OAuth для аутентификацииOAUTH_CLIENT_SECRET
: секрет клиента OAuth для аутентификации
Дорожная карта
Проект разрабатывается с учетом следующих компонентов:
- Настройка и конфигурация проекта : настройка CloudFlare Worker, конфигурация TypeScript
- Схемы сервера и инструментов MCP : реализация сервера MCP с определениями инструментов
- Адаптер Crawl4AI : интеграция с функционалом Crawl4AI
- Аутентификация OAuth : реализация безопасной аутентификации
- Оптимизация производительности : повышение скорости и надежности
- Расширенные функции извлечения : улучшение возможностей извлечения структурированных данных.
Внося вклад
Вклады приветствуются! Пожалуйста, проверьте открытые проблемы или создайте новую, прежде чем начать работу над функцией или исправлением ошибки. Подробные инструкции см. в Руководстве по вкладу .
Поддерживать
Если у вас возникли проблемы или есть вопросы:
- Открыть вопрос в репозитории GitHub
- Проверьте документацию Crawl4AI.
- См. спецификацию протокола контекста модели.
Как цитировать
Если вы используете Crawl4AI MCP Server в своих исследованиях или проектах, пожалуйста, укажите ссылку на него, используя следующую запись BibTeX:
Лицензия
This server cannot be installed
remote-capable server
The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.
Высокопроизводительный сервер, позволяющий помощникам на базе искусственного интеллекта получать доступ к возможностям веб-скрапинга, сканирования и глубокого исследования с помощью протокола Model Context Protocol.
Related MCP Servers
- AsecurityAlicenseAqualityA production-ready Model Context Protocol server that enables language models to leverage AI-powered web scraping capabilities, offering tools for transforming webpages to markdown, extracting structured data, and executing AI-powered web searches.Last updated -316PythonMIT License
- -securityAlicense-qualityA Model Context Protocol server that enables AI assistants to perform advanced web scraping, crawling, searching, and data extraction through the Firecrawl API.Last updated -15,275MIT License
- AsecurityFlicenseAqualityA Model Context Protocol server that enables AI assistants to perform real-time web searches, retrieving up-to-date information from the internet via a Crawler API.Last updated -1448JavaScript
- -securityAlicense-qualityA Model Context Protocol server that provides real-time web search capabilities to AI assistants through pluggable search providers, currently integrated with the Brave Search API.Last updated -3TypeScriptMIT License