Skip to main content
Glama

⚠️ УВЕДОМЛЕНИЕ

СЕРВЕР MCP В НАСТОЯЩЕЕ ВРЕМЯ НАХОДИТСЯ В РАЗРАБОТКЕ
НЕ ГОТОВО К ПРОИЗВОДСТВЕННОМУ ИСПОЛЬЗОВАНИЮ
ОБНОВЛЕНИЕ БУДЕТ ПОСЛЕ ЗАВЕРШЕНИЯ РАБОТЫ

MCP-сервер Crawl4AI

🚀 Высокопроизводительный сервер MCP для Crawl4AI — позволяет помощникам ИИ получать доступ к веб-скрапингу, сканированию и глубокому исследованию через протокол Model Context. Быстрее и эффективнее, чем FireCrawl!

Обзор

Этот проект реализует пользовательский сервер Model Context Protocol (MCP), который интегрируется с Crawl4AI, библиотекой веб-скрейпинга и сканирования с открытым исходным кодом. Сервер развернут как удаленный сервер MCP на CloudFlare Workers, что позволяет помощникам ИИ, таким как Клод, получать доступ к мощным возможностям веб-скрейпинга Crawl4AI.

Related MCP server: Firecrawl MCP Server

Документация

Подробную информацию об этом проекте можно найти в следующей документации:

Функции

Сбор веб-данных

  • 🌐 Извлечение данных с отдельных веб-страниц : извлечение контента с отдельных веб-страниц

  • 🕸️ Веб-сканирование : сканирование веб-сайтов с настраиваемой глубиной и ограничениями по количеству страниц

  • 🗺️ Обнаружение URL : сопоставление и обнаружение URL-адресов с начальной точки

  • 🕸️ Асинхронное сканирование : эффективное сканирование целых веб-сайтов

Обработка контента

  • 🔍 Глубокое исследование : проведите комплексное исследование на нескольких страницах.

  • 📊 Извлечение структурированных данных : извлечение определенных данных с использованием селекторов CSS или извлечение на основе LLM.

  • 🔎 Поиск контента : поиск по ранее просканированному контенту

Интеграция и безопасность

  • 🔄 Интеграция с MCP : бесшовная интеграция с клиентами MCP (Claude Desktop и т. д.)

  • 🔒 Аутентификация OAuth : безопасный доступ с соответствующей авторизацией

  • 🔒 Варианты аутентификации : безопасный доступ через OAuth или API-ключ (токен на предъявителя)

  • Высокая производительность : оптимизирована для скорости и эффективности

Структура проекта

crawl4ai-mcp/ ├── src/ │ ├── index.ts # Main entry point with OAuth provider setup │ ├── auth-handler.ts # Authentication handler │ ├── mcp-server.ts # MCP server implementation │ ├── crawl4ai-adapter.ts # Adapter for Crawl4AI API │ ├── tool-schemas/ # MCP tool schema definitions │ │ └── [...].ts # Tool schemas │ ├── handlers/ │ │ ├── crawl.ts # Web crawling implementation │ │ ├── search.ts # Search functionality │ │ └── extract.ts # Content extraction │ └── utils/ # Utility functions ├── tests/ # Test cases ├── .github/ # GitHub configuration ├── wrangler.toml # CloudFlare Workers configuration ├── tsconfig.json # TypeScript configuration ├── package.json # Node.js dependencies └── README.md # Project documentation

Начиная

Предпосылки

  • Node.js (v18 или выше)

  • нпм

  • Wrangler (CLI для рабочих CloudFlare)

  • Учетная запись CloudFlare

Установка

  1. Клонируйте репозиторий:

    git clone https://github.com/BjornMelin/crawl4ai-mcp-server.git cd crawl4ai-mcp-server
  2. Установить зависимости:

    npm install
  3. Настройте пространство имен CloudFlare KV:

    wrangler kv:namespace create CRAWL_DATA
  4. Обновите wrangler.toml , указав идентификатор пространства имен KV:

    kv_namespaces = [ { binding = "CRAWL_DATA", id = "your-namespace-id" } ]

Разработка

Местное развитие

  1. Запустите сервер разработки:

    npm run dev
  2. Сервер будет доступен по адресу http://localhost:8787

Развертывание

  1. Развертывание в CloudFlare Workers:

    npm run deploy
  2. Ваш сервер будет доступен по URL-адресу CloudFlare Workers, назначенному вашему развернутому Worker.

Использование с клиентами MCP

Этот сервер реализует протокол контекста модели, позволяя помощникам ИИ получать доступ к его инструментам.

Аутентификация

  • Реализуйте аутентификацию OAuth с помощью workers-oauth-provider

  • Добавить аутентификацию ключа API с использованием токенов Bearer

  • Создать страницу входа и управление токенами

Подключение к MCP-клиенту

  1. Используйте URL-адрес CloudFlare Workers, назначенный вашему развернутому Worker-у

  2. В Claude Desktop или других клиентах MCP добавьте этот сервер в качестве источника инструментов

Доступные инструменты

  • crawl : сканирование веб-страниц с начального URL-адреса.

  • getCrawl : Извлечение данных сканирования по идентификатору

  • listCrawls : список всех обходов или фильтр по домену

  • search : Поиск индексированных документов по запросу

  • extract : извлечение структурированного контента из URL-адреса

Конфигурация

Сервер можно настроить, изменив переменные среды в wrangler.toml :

  • MAX_CRAWL_DEPTH : Максимальная глубина сканирования веб-страниц (по умолчанию: 3)

  • MAX_CRAWL_PAGES : Максимальное количество страниц для сканирования (по умолчанию: 100)

  • API_VERSION : строка версии API (по умолчанию: «v1»)

  • OAUTH_CLIENT_ID : идентификатор клиента OAuth для аутентификации

  • OAUTH_CLIENT_SECRET : секрет клиента OAuth для аутентификации

Дорожная карта

Проект разрабатывается с учетом следующих компонентов:

  1. Настройка и конфигурация проекта : настройка CloudFlare Worker, конфигурация TypeScript

  2. Схемы сервера и инструментов MCP : реализация сервера MCP с определениями инструментов

  3. Адаптер Crawl4AI : интеграция с функционалом Crawl4AI

  4. Аутентификация OAuth : реализация безопасной аутентификации

  5. Оптимизация производительности : повышение скорости и надежности

  6. Расширенные функции извлечения : улучшение возможностей извлечения структурированных данных.

Внося вклад

Вклады приветствуются! Пожалуйста, проверьте открытые проблемы или создайте новую, прежде чем начать работу над функцией или исправлением ошибки. Подробные инструкции см. в Руководстве по вкладу .

Поддерживать

Если у вас возникли проблемы или есть вопросы:

Как цитировать

Если вы используете Crawl4AI MCP Server в своих исследованиях или проектах, пожалуйста, укажите ссылку на него, используя следующую запись BibTeX:

@software{crawl4ai_mcp_2025, author = {Melin, Bjorn}, title = {Crawl4AI MCP Server: High-performance Web Crawling for AI Assistants}, url = {https://github.com/BjornMelin/crawl4ai-mcp-server}, version = {1.0.0}, year = {2025}, month = {5} }

Лицензия

Массачусетский технологический институт

-
security - not tested
F
license - not found
-
quality - not tested

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/BjornMelin/crawl4ai-mcp-server'

If you have feedback or need assistance with the MCP directory API, please join our Discord server