⚠️ УВЕДОМЛЕНИЕ

СЕРВЕР MCP В НАСТОЯЩЕЕ ВРЕМЯ НАХОДИТСЯ В РАЗРАБОТКЕ
НЕ ГОТОВО К ПРОИЗВОДСТВЕННОМУ ИСПОЛЬЗОВАНИЮ
ОБНОВЛЕНИЕ БУДЕТ ПОСЛЕ ЗАВЕРШЕНИЯ РАБОТЫ

MCP-сервер Crawl4AI

🚀 Высокопроизводительный сервер MCP для Crawl4AI — позволяет помощникам ИИ получать доступ к веб-скрапингу, сканированию и глубокому исследованию через протокол Model Context. Быстрее и эффективнее, чем FireCrawl!

Обзор

Этот проект реализует пользовательский сервер Model Context Protocol (MCP), который интегрируется с Crawl4AI, библиотекой веб-скрейпинга и сканирования с открытым исходным кодом. Сервер развернут как удаленный сервер MCP на CloudFlare Workers, что позволяет помощникам ИИ, таким как Клод, получать доступ к мощным возможностям веб-скрейпинга Crawl4AI.

Документация

Подробную информацию об этом проекте можно найти в следующей документации:

План миграции — Подробный план миграции с Firecrawl на Crawl4AI
Улучшенная архитектура — многопользовательская архитектура с гибкостью облачного провайдера
Руководство по внедрению — Технические подробности внедрения и примеры кода
Упрощение кодовой базы — подробности об упрощении кода и внедренных передовых методах

Функции

Сбор веб-данных

🌐 Извлечение данных с отдельных веб-страниц : извлечение контента с отдельных веб-страниц
🕸️ Веб-сканирование : сканирование веб-сайтов с настраиваемой глубиной и ограничениями по количеству страниц
🗺️ Обнаружение URL : сопоставление и обнаружение URL-адресов с начальной точки
🕸️ Асинхронное сканирование : эффективное сканирование целых веб-сайтов

Обработка контента

🔍 Глубокое исследование : проведите комплексное исследование на нескольких страницах.
📊 Извлечение структурированных данных : извлечение определенных данных с использованием селекторов CSS или извлечение на основе LLM.
🔎 Поиск контента : поиск по ранее просканированному контенту

Интеграция и безопасность

🔄 Интеграция с MCP : бесшовная интеграция с клиентами MCP (Claude Desktop и т. д.)
🔒 Аутентификация OAuth : безопасный доступ с соответствующей авторизацией
🔒 Варианты аутентификации : безопасный доступ через OAuth или API-ключ (токен на предъявителя)
⚡ Высокая производительность : оптимизирована для скорости и эффективности

Структур�� проекта

crawl4ai-mcp/ ├── src/ │ ├── index.ts # Main entry point with OAuth provider setup │ ├── auth-handler.ts # Authentication handler │ ├── mcp-server.ts # MCP server implementation │ ├── crawl4ai-adapter.ts # Adapter for Crawl4AI API │ ├── tool-schemas/ # MCP tool schema definitions │ │ └── [...].ts # Tool schemas │ ├── handlers/ │ │ ├── crawl.ts # Web crawling implementation │ │ ├── search.ts # Search functionality │ │ └── extract.ts # Content extraction │ └── utils/ # Utility functions ├── tests/ # Test cases ├── .github/ # GitHub configuration ├── wrangler.toml # CloudFlare Workers configuration ├── tsconfig.json # TypeScript configuration ├── package.json # Node.js dependencies └── README.md # Project documentation

Начиная

Предпосылки

Node.js (v18 или выше)
нпм
Wrangler (CLI для рабочих CloudFlare)
Учетная запись CloudFlare

Установка

Клонируйте репозиторий:
git clone https://github.com/BjornMelin/crawl4ai-mcp-server.git cd crawl4ai-mcp-server
Установить зависимости:
npm install
Настройте пространство имен CloudFlare KV:
wrangler kv:namespace create CRAWL_DATA
Обновите wrangler.toml , указав идентификатор пространства имен KV:
kv_namespaces = [ { binding = "CRAWL_DATA", id = "your-namespace-id" } ]

Разработка

Местное развитие

Запустите сервер разработки:
npm run dev
Сервер будет доступен по адресу http://localhost:8787

Развертывание

Развертывание в CloudFlare Workers:
npm run deploy
Ваш сервер будет доступен по URL-адресу CloudFlare Workers, назначенному вашему развернутому Worker.

Использование с клиентами MCP

Этот сервер реализует протокол контекста модели, позволяя помощникам ИИ получать доступ к его инструментам.

Аутентификация

Реализуйте аутентификацию OAuth с помощью workers-oauth-provider
Добавить аутентификацию ключа API с использованием токенов Bearer
Создать страницу входа и управление токенами

Подключение к MCP-клиенту

Используйте URL-адрес CloudFlare Workers, назначенный вашему развернутому Worker-у
В Claude Desktop или других клиентах MCP добавьте этот сервер в качестве источника инструментов

Доступные инструменты

crawl : сканирование веб-страниц с начального URL-адреса.
getCrawl : Извлечение данных сканирования по идентификатору
listCrawls : список всех обходов или фильтр по домену
search : Поиск индексированных документов по запросу
extract : извлечение структурированного контента из URL-адреса

Конфигурация

Сервер можно настроить, изменив переменные среды в wrangler.toml :

MAX_CRAWL_DEPTH : Максимальная глубина сканирования веб-страниц (по умолчанию: 3)
MAX_CRAWL_PAGES : Максимальное количество страниц для сканирования (по умолчанию: 100)
API_VERSION : строка версии API (по умолчанию: «v1»)
OAUTH_CLIENT_ID : идентификатор клиента OAuth для аутентификации
OAUTH_CLIENT_SECRET : секрет клиента OAuth для аутентификации

Дорожная карта

Проект разрабатывается с учетом следующих компонентов:

Настройка и конфигурация проекта : настройка CloudFlare Worker, конфигурация TypeScript
Схемы сервера и инструментов MCP : реализация сервера MCP с определениями инструментов
Адаптер Crawl4AI : интеграция с функционалом Crawl4AI
Аутентификация OAuth : реализация безопасной аутентификации
Оптимизация производительности : повышение скорости и надежности
Расширенные функции извлечения : улучшение возможностей извлечения структурированных данных.

Внося вклад

Вклады приветствуются! Пожалуйста, проверьте открытые проблемы или создайте новую, прежде чем начать работу над функцией или исправлением ошибки. Подробные инструкции см. в Руководстве по вкладу .

Поддерживать

Если у вас возникли проблемы или есть вопросы:

Открыть вопрос в репозитории GitHub
Проверьте документацию Crawl4AI.
См. спецификацию протокола контекста модели.

Как цитировать

Если вы используете Crawl4AI MCP Server в своих исследованиях или проектах, пожалуйста, укажите ссылку на него, используя следующую запись BibTeX:

@software{crawl4ai_mcp_2025, author = {Melin, Bjorn}, title = {Crawl4AI MCP Server: High-performance Web Crawling for AI Assistants}, url = {https://github.com/BjornMelin/crawl4ai-mcp-server}, version = {1.0.0}, year = {2025}, month = {5} }

Лицензия

Массачусетский технологический институт

This server cannot be installed

security - not tested

license - not found

quality - not tested

How are these scores calculated?

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

Высокопроизводительный сервер, позволяющий помощникам на базе искусственного интеллекта получать доступ к возможностям веб-скрапинга, сканирования и глубокого исследования с помощью протокола Model Context Protocol.

MCP-сервер Crawl4AI

Related MCP Servers

ScrapeGraph MCP Serverofficial
ScrapeGraphAI
A
security
A
license
A
quality
A production-ready Model Context Protocol server that enables language models to leverage AI-powered web scraping capabilities, offering tools for transforming webpages to markdown, extracting structured data, and executing AI-powered web searches.
Last updated -
5
38
MIT License
Firecrawl MCP Server
mcma123
-
security
A
license
-
quality
A Model Context Protocol server that enables AI assistants to perform advanced web scraping, crawling, searching, and data extraction through the Firecrawl API.
Last updated -
72,328
MIT License
WebSearch-MCP
mnhlt
A
security
F
license
A
quality
A Model Context Protocol server that enables AI assistants to perform real-time web searches, retrieving up-to-date information from the internet via a Crawler API.
Last updated -
1
285
17
Prysm MCP Server
pinkpixel-dev
A
security
A
license
A
quality
A Model Context Protocol server enabling AI assistants to scrape web content with high accuracy and flexibility, supporting multiple scraping modes and content formatting options.
Last updated -
4
26
2
MIT License

View all related MCP servers

Crawl4AI MCP Server