Crawl4AI MCP Server
⚠️ УВЕДОМЛЕНИЕ
СЕРВЕР MCP В НАСТОЯЩЕЕ ВРЕМЯ НАХОДИТСЯ В РАЗРАБОТКЕ
НЕ ГОТОВО К ПРОИЗВОДСТВЕННОМУ ИСПОЛЬЗОВАНИЮ
ОБНОВЛЕНИЕ БУДЕТ ПОСЛЕ ЗАВЕРШЕНИЯ РАБОТЫ
MCP-сервер Crawl4AI
🚀 Высокопроизводительный сервер MCP для Crawl4AI — позволяет помощникам ИИ получать доступ к веб-скрапингу, сканированию и глубокому исследованию через протокол Model Context. Быстрее и эффективнее, чем FireCrawl!
Обзор
Этот проект реализует пользовательский сервер Model Context Protocol (MCP), который интегрируется с Crawl4AI, библиотекой веб-скрейпинга и сканирования с открытым исходным кодом. Сервер развернут как удаленный сервер MCP на CloudFlare Workers, что позволяет помощникам ИИ, таким как Клод, получать доступ к мощным возможностям веб-скрейпинга Crawl4AI.
Related MCP server: Firecrawl MCP Server
Документация
Подробную информацию об этом проекте можно найти в следующей документации:
План миграции — Подробный план миграции с Firecrawl на Crawl4AI
Улучшенная архитектура — многопользовательская архитектура с гибкостью облачного провайдера
Руководство по внедрению — Технические подробности внедрения и примеры кода
Упрощение кодовой базы — подробности об упрощении кода и внедренных передовых методах
Функции
Сбор веб-данных
🌐 Извлечение данных с отдельных веб-страниц : извлечение контента с отдельных веб-страниц
🕸️ Веб-сканирование : сканирование веб-сайтов с настраиваемой глубиной и ограничениями по количеству страниц
🗺️ Обнаружение URL : сопоставление и обнаружение URL-адресов с начальной точки
🕸️ Асинхронное сканирование : эффективное сканирование целых веб-сайтов
Обработка контента
🔍 Глубокое исследование : проведите комплексное исследование на нескольких страницах.
📊 Извлечение структурированных данных : извлечение определенных данных с использованием селекторов CSS или извлечение на основе LLM.
🔎 Поиск контента : поиск по ранее просканированному контенту
Интеграция и безопасность
🔄 Интеграция с MCP : бесшовная интеграция с клиентами MCP (Claude Desktop и т. д.)
🔒 Аутентификация OAuth : безопасный доступ с соответствующей авторизацией
🔒 Варианты аутентификации : безопасный доступ через OAuth или API-ключ (токен на предъявителя)
⚡ Высокая производительность : оптимизирована для скорости и эффективности
Структура проекта
crawl4ai-mcp/
├── src/
│ ├── index.ts # Main entry point with OAuth provider setup
│ ├── auth-handler.ts # Authentication handler
│ ├── mcp-server.ts # MCP server implementation
│ ├── crawl4ai-adapter.ts # Adapter for Crawl4AI API
│ ├── tool-schemas/ # MCP tool schema definitions
│ │ └── [...].ts # Tool schemas
│ ├── handlers/
│ │ ├── crawl.ts # Web crawling implementation
│ │ ├── search.ts # Search functionality
│ │ └── extract.ts # Content extraction
│ └── utils/ # Utility functions
├── tests/ # Test cases
├── .github/ # GitHub configuration
├── wrangler.toml # CloudFlare Workers configuration
├── tsconfig.json # TypeScript configuration
├── package.json # Node.js dependencies
└── README.md # Project documentationНачиная
Предпосылки
Установка
Клонируйте репозиторий:
git clone https://github.com/BjornMelin/crawl4ai-mcp-server.git cd crawl4ai-mcp-serverУстановить зависимости:
npm installНастройте пространство имен CloudFlare KV:
wrangler kv:namespace create CRAWL_DATAОбновите
wrangler.toml, указав идентификатор пространства имен KV:kv_namespaces = [ { binding = "CRAWL_DATA", id = "your-namespace-id" } ]
Разработка
Местное развитие
Запустите сервер разработки:
npm run devСервер будет доступен по адресу http://localhost:8787
Развертывание
Развертывание в CloudFlare Workers:
npm run deployВаш сервер будет доступен по URL-адресу CloudFlare Workers, назначенному вашему развернутому Worker.
Использование с клиентами MCP
Этот сервер реализует протокол контекста модели, позволяя помощникам ИИ получать доступ к его инструментам.
Аутентификация
Реализуйте аутентификацию OAuth с помощью workers-oauth-provider
Добавить аутентификацию ключа API с использованием токенов Bearer
Создать страницу входа и управление токенами
Подключение к MCP-клиенту
Используйте URL-адрес CloudFlare Workers, назначенный вашему развернутому Worker-у
В Claude Desktop или других клиентах MCP добавьте этот сервер в качестве источника инструментов
Доступные инструменты
crawl: сканирование веб-страниц с начального URL-адреса.getCrawl: Извлечение данных сканирования по идентификаторуlistCrawls: список всех обходов или фильтр по доменуsearch: Поиск индексированных документов по запросуextract: извлечение структурированного контента из URL-адреса
Конфигурация
Сервер можно настроить, изменив переменные среды в wrangler.toml :
MAX_CRAWL_DEPTH: Максимальная глубина сканирования веб-страниц (по умолчанию: 3)MAX_CRAWL_PAGES: Максимальное количество страниц для сканирования (по умолчанию: 100)API_VERSION: строка версии API (по умолчанию: «v1»)OAUTH_CLIENT_ID: идентификатор клиента OAuth для аутентификацииOAUTH_CLIENT_SECRET: секрет клиента OAuth для аутентификации
Дорожная карта
Проект разрабатывается с учетом следующих компонентов:
Настройка и конфигурация проекта : настройка CloudFlare Worker, конфигурация TypeScript
Схемы сервера и инструментов MCP : реализация сервера MCP с определениями инструментов
Адаптер Crawl4AI : интеграция с функционалом Crawl4AI
Аутентификация OAuth : реализация безопасной аутентификации
Оптимизация производительности : повышение скорости и надежности
Расширенные функции извлечения : улучшение возможностей извлечения структурированных данных.
Внося вклад
Вклады приветствуются! Пожалуйста, проверьте открытые проблемы или создайте новую, прежде чем начать работу над функцией или исправлением ошибки. Подробные инструкции см. в Руководстве по вкладу .
Поддерживать
Если у вас возникли проблемы или есть вопросы:
Открыть вопрос в репозитории GitHub
Проверьте документацию Crawl4AI.
Как цитировать
Если вы используете Crawl4AI MCP Server в своих исследованиях или проектах, пожалуйста, укажите ссылку на него, используя следующую запись BibTeX:
@software{crawl4ai_mcp_2025,
author = {Melin, Bjorn},
title = {Crawl4AI MCP Server: High-performance Web Crawling for AI Assistants},
url = {https://github.com/BjornMelin/crawl4ai-mcp-server},
version = {1.0.0},
year = {2025},
month = {5}
}Лицензия
Appeared in Searches
- Web search and data extraction capabilities for AI assistants
- A guide to conducting thorough web-based research
- A service for downloading files from MEGA cloud storage
- Enabling deep research modes in AI tools like Kimi and ChatGPT
- A server for finding rental listings on platforms like Facebook, Craigslist, Zillow, and Realtor.com
Latest Blog Posts
MCP directory API
We provide all the information about MCP servers via our MCP API.
curl -X GET 'https://glama.ai/api/mcp/v1/servers/BjornMelin/crawl4ai-mcp-server'
If you have feedback or need assistance with the MCP directory API, please join our Discord server