⚠️ УВЕДОМЛЕНИЕ

СЕРВЕР MCP В НАСТОЯЩЕЕ ВРЕМЯ НАХОДИТСЯ В РАЗРАБОТКЕ
НЕ ГОТОВО К ПРОИЗВОДСТВЕННОМУ ИСПОЛЬЗОВАНИЮ
ОБНОВЛЕНИЕ БУДЕТ ПОСЛЕ ЗАВЕРШЕНИЯ РАБОТЫ

MCP-сервер Crawl4AI

🚀 Высокопроизводительный сервер MCP для Crawl4AI — позволяет помощникам ИИ получать доступ к веб-скрапингу, сканированию и глубокому исследованию через протокол Model Context. Быстрее и эффективнее, чем FireCrawl!

Обзор

Этот проект реализует пользовательский сервер Model Context Protocol (MCP), который интегрируется с Crawl4AI, библиотекой веб-скрейпинга и сканирования с открытым исходным кодом. Сервер развернут как удаленный сервер MCP на CloudFlare Workers, что позволяет помощникам ИИ, таким как Клод, получать доступ к мощным возможностям веб-скрейпинга Crawl4AI.

Related MCP server: Firecrawl MCP Server

Документация

Подробную информацию об этом проекте можно найти в следующей документации:

План миграции — Подробный план миграции с Firecrawl на Crawl4AI
Улучшенная архитектура — многопользовательская архитектура с гибкостью облачного провайдера
Руководство по внедрению — Технические подробности внедрения и примеры кода
Упрощение кодовой базы — подробности об упрощении кода и внедренных передовых методах

Функции

Сбор веб-данных

🌐 Извлечение данных с отдельных веб-страниц : извлечение контента с отдельных веб-страниц
🕸️ Веб-сканирование : сканирование веб-сайтов с настраиваемой глубиной и ограничениями по количеству страниц
🗺️ Обнаружение URL : сопоставление и обнаружение URL-адресов с начальной точки
🕸️ Асинхронное сканирование : эффективное сканирование целых веб-сайтов

Обработка контента

🔍 Глубокое исследование : проведите комплексное исследование на нескольких страницах.
📊 Извлечение структурированных данных : извлечение определенных данных с использованием селекторов CSS или извлечение на основе LLM.
🔎 Поиск контента : поиск по ранее просканированному контенту

Интеграция и безопасность

🔄 Интеграция с MCP : бесшовная интеграция с клиентами MCP (Claude Desktop и т. д.)
🔒 Аутентификация OAuth : безопасный доступ с соответствующей авторизацией
🔒 Варианты аутентификации : безопасный доступ через OAuth или API-ключ (токен на предъявителя)
⚡ Высокая производительность : оптимизирована для скорости и эффективности

Структура проекта

crawl4ai-mcp/
├── src/
│   ├── index.ts               # Main entry point with OAuth provider setup
│   ├── auth-handler.ts        # Authentication handler
│   ├── mcp-server.ts          # MCP server implementation
│   ├── crawl4ai-adapter.ts    # Adapter for Crawl4AI API
│   ├── tool-schemas/          # MCP tool schema definitions
│   │   └── [...].ts           # Tool schemas
│   ├── handlers/
│   │   ├── crawl.ts           # Web crawling implementation
│   │   ├── search.ts          # Search functionality
│   │   └── extract.ts         # Content extraction
│   └── utils/                 # Utility functions
├── tests/                     # Test cases
├── .github/                   # GitHub configuration
├── wrangler.toml              # CloudFlare Workers configuration
├── tsconfig.json              # TypeScript configuration
├── package.json               # Node.js dependencies
└── README.md                  # Project documentation

Начиная

Предпосылки

Node.js (v18 или выше)
нпм
Wrangler (CLI для рабочих CloudFlare)
Учетная запись CloudFlare

Установка

Клонируйте репозиторий:

git clone https://github.com/BjornMelin/crawl4ai-mcp-server.git
cd crawl4ai-mcp-server

Установить зависимости:
```
npm install
```
Настройте пространство имен CloudFlare KV:
```
wrangler kv:namespace create CRAWL_DATA
```
Обновите wrangler.toml , указав идентификатор пространства имен KV:
```
kv_namespaces = [
  { binding = "CRAWL_DATA", id = "your-namespace-id" }
]
```

Разработка

Местное развитие

Запустите сервер разработки:
```
npm run dev
```
Сервер будет доступен по адресу http://localhost:8787

Развертывание

Развертывание в CloudFlare Workers:
```
npm run deploy
```
Ваш сервер будет доступен по URL-адресу CloudFlare Workers, назначенному вашему развернутому Worker.

Использование с клиентами MCP

Этот сервер реализует протокол контекста модели, позволяя помощникам ИИ получать доступ к его инструментам.

Аутентификация

Реализуйте аутентификацию OAuth с помощью workers-oauth-provider
Добавить аутентификацию ключа API с использованием токенов Bearer
Создать страницу входа и управление токенами

Подключение к MCP-клиенту

Используйте URL-адрес CloudFlare Workers, назначенный вашему развернутому Worker-у
В Claude Desktop или других клиентах MCP добавьте этот сервер в качестве источника инструментов

Доступные инструменты

crawl : сканирование веб-страниц с начального URL-адреса.
getCrawl : Извлечение данных сканирования по идентификатору
listCrawls : список всех обходов или фильтр по домену
search : Поиск индексированных документов по запросу
extract : извлечение структурированного контента из URL-адреса

Конфигурация

Сервер можно настроить, изменив переменные среды в wrangler.toml :

MAX_CRAWL_DEPTH : Максимальная глубина сканирования веб-страниц (по умолчанию: 3)
MAX_CRAWL_PAGES : Максимальное количество страниц для сканирования (по умолчанию: 100)
API_VERSION : строка версии API (по умолчанию: «v1»)
OAUTH_CLIENT_ID : идентификатор клиента OAuth для аутентификации
OAUTH_CLIENT_SECRET : секрет клиента OAuth для аутентификации

Дорожная карта

Проект разрабатывается с учетом следующих компонентов:

Настройка и конфигурация проекта : настройка CloudFlare Worker, конфигурация TypeScript
Схемы сервера и инструментов MCP : реализация сервера MCP с определениями инструментов
Адаптер Crawl4AI : интеграция с функционалом Crawl4AI
Аутентификация OAuth : реализация безопасной аутентификации
Оптимизация производительности : повышение скорости и надежности
Расширенные функции извлечения : улучшение возможностей извлечения структурированных данных.

Внося вклад

Вклады приветствуются! Пожалуйста, проверьте открытые проблемы или создайте новую, прежде чем начать работу над функцией или исправлением ошибки. Подробные инструкции см. в Руководстве по вкладу .

Поддерживать

Если у вас возникли проблемы или есть вопросы:

Открыть вопрос в репозитории GitHub
Проверьте документацию Crawl4AI.
См. спецификацию протокола контекста модели.

Как цитировать

Если вы используете Crawl4AI MCP Server в своих исследованиях или проектах, пожалуйста, укажите ссылку на него, используя следующую запись BibTeX:

@software{crawl4ai_mcp_2025,
  author = {Melin, Bjorn},
  title = {Crawl4AI MCP Server: High-performance Web Crawling for AI Assistants},
  url = {https://github.com/BjornMelin/crawl4ai-mcp-server},
  version = {1.0.0},
  year = {2025},
  month = {5}
}

Лицензия

Массачусетский технологический институт

Crawl4AI MCP Server