Crawl4AI MCP Server

Integrations

  • Serves as the deployment platform for the MCP server, enabling the service to run on CloudFlare's edge network

⚠️ УВЕДОМЛЕНИЕ

СЕРВЕР MCP В НАСТОЯЩЕЕ ВРЕМЯ НАХОДИТСЯ В РАЗРАБОТКЕ
НЕ ГОТОВО К ПРОИЗВОДСТВЕННОМУ ИСПОЛЬЗОВАНИЮ
ОБНОВЛЕНИЕ БУДЕТ ПОСЛЕ ЗАВЕРШЕНИЯ РАБОТЫ

MCP-сервер Crawl4AI

🚀 Высокопроизводительный сервер MCP для Crawl4AI — позволяет помощникам ИИ получать доступ к веб-скрапингу, сканированию и глубокому исследованию через протокол Model Context. Быстрее и эффективнее, чем FireCrawl!

Обзор

Этот проект реализует пользовательский сервер Model Context Protocol (MCP), который интегрируется с Crawl4AI, библиотекой веб-скрейпинга и сканирования с открытым исходным кодом. Сервер развернут как удаленный сервер MCP на CloudFlare Workers, что позволяет помощникам ИИ, таким как Клод, получать доступ к мощным возможностям веб-скрейпинга Crawl4AI.

Документация

Подробную информацию об этом проекте можно найти в следующей документации:

Функции

Сбор веб-данных

  • 🌐 Извлечение данных с отдельных веб-страниц : извлечение контента с отдельных веб-страниц
  • 🕸️ Веб-сканирование : сканирование веб-сайтов с настраиваемой глубиной и ограничениями по количеству страниц
  • 🗺️ Обнаружение URL : сопоставление и обнаружение URL-адресов с начальной точки
  • 🕸️ Асинхронное сканирование : эффективное сканирование целых веб-сайтов

Обработка контента

  • 🔍 Глубокое исследование : проведите комплексное исследование на нескольких страницах.
  • 📊 Извлечение структурированных данных : извлечение определенных данных с использованием селекторов CSS или извлечение на основе LLM.
  • 🔎 Поиск контента : поиск по ранее просканированному контенту

Интеграция и безопасность

  • 🔄 Интеграция с MCP : бесшовная интеграция с клиентами MCP (Claude Desktop и т. д.)
  • 🔒 Аутентификация OAuth : безопасный доступ с соответствующей авторизацией
  • 🔒 Варианты аутентификации : безопасный доступ через OAuth или API-ключ (токен на предъявителя)
  • Высокая производительность : оптимизирована для скорости и эффективности

Структура проекта

crawl4ai-mcp/ ├── src/ │ ├── index.ts # Main entry point with OAuth provider setup │ ├── auth-handler.ts # Authentication handler │ ├── mcp-server.ts # MCP server implementation │ ├── crawl4ai-adapter.ts # Adapter for Crawl4AI API │ ├── tool-schemas/ # MCP tool schema definitions │ │ └── [...].ts # Tool schemas │ ├── handlers/ │ │ ├── crawl.ts # Web crawling implementation │ │ ├── search.ts # Search functionality │ │ └── extract.ts # Content extraction │ └── utils/ # Utility functions ├── tests/ # Test cases ├── .github/ # GitHub configuration ├── wrangler.toml # CloudFlare Workers configuration ├── tsconfig.json # TypeScript configuration ├── package.json # Node.js dependencies └── README.md # Project documentation

Начиная

Предпосылки

  • Node.js (v18 или выше)
  • нпм
  • Wrangler (CLI для рабочих CloudFlare)
  • Учетная запись CloudFlare

Установка

  1. Клонируйте репозиторий:
    git clone https://github.com/BjornMelin/crawl4ai-mcp-server.git cd crawl4ai-mcp-server
  2. Установить зависимости:
    npm install
  3. Настройте пространство имен CloudFlare KV:
    wrangler kv:namespace create CRAWL_DATA
  4. Обновите wrangler.toml , указав идентификатор пространства имен KV:
    kv_namespaces = [ { binding = "CRAWL_DATA", id = "your-namespace-id" } ]

Разработка

Местное развитие

  1. Запустите сервер разработки:
    npm run dev
  2. Сервер будет доступен по адресу http://localhost:8787

Развертывание

  1. Развертывание в CloudFlare Workers:
    npm run deploy
  2. Ваш сервер будет доступен по URL-адресу CloudFlare Workers, назначенному вашему развернутому Worker.

Использование с клиентами MCP

Этот сервер реализует протокол контекста модели, позволяя помощникам ИИ получать доступ к его инструментам.

Аутентификация

  • Реализуйте аутентификацию OAuth с помощью workers-oauth-provider
  • Добавить аутентификацию ключа API с использованием токенов Bearer
  • Создать страницу входа и управление токенами

Подключение к MCP-клиенту

  1. Используйте URL-адрес CloudFlare Workers, назначенный вашему развернутому Worker-у
  2. В Claude Desktop или других клиентах MCP добавьте этот сервер в качестве источника инструментов

Доступные инструменты

  • crawl : сканирование веб-страниц с начального URL-адреса.
  • getCrawl : Извлечение данных сканирования по идентификатору
  • listCrawls : список всех обходов или фильтр по домену
  • search : Поиск индексированных документов по запросу
  • extract : извлечение структурированного контента из URL-адреса

Конфигурация

Сервер можно настроить, изменив переменные среды в wrangler.toml :

  • MAX_CRAWL_DEPTH : Максимальная глубина сканирования веб-страниц (по умолчанию: 3)
  • MAX_CRAWL_PAGES : Максимальное количество страниц для сканирования (по умолчанию: 100)
  • API_VERSION : строка версии API (по умолчанию: «v1»)
  • OAUTH_CLIENT_ID : идентификатор клиента OAuth для аутентификации
  • OAUTH_CLIENT_SECRET : секрет клиента OAuth для аутентификации

Дорожная карта

Проект разрабатывается с учетом следующих компонентов:

  1. Настройка и конфигурация проекта : настройка CloudFlare Worker, конфигурация TypeScript
  2. Схемы сервера и инструментов MCP : реализация сервера MCP с определениями инструментов
  3. Адаптер Crawl4AI : интеграция с функционалом Crawl4AI
  4. Аутентификация OAuth : реализация безопасной аутентификации
  5. Оптимизация производительности : повышение скорости и надежности
  6. Расширенные функции извлечения : улучшение возможностей извлечения структурированных данных.

Внося вклад

Вклады приветствуются! Пожалуйста, проверьте открытые проблемы или создайте новую, прежде чем начать работу над функцией или исправлением ошибки. Подробные инструкции см. в Руководстве по вкладу .

Поддерживать

Если у вас возникли проблемы или есть вопросы:

Как цитировать

Если вы используете Crawl4AI MCP Server в своих исследованиях или проектах, пожалуйста, укажите ссылку на него, используя следующую запись BibTeX:

@software{crawl4ai_mcp_2025, author = {Melin, Bjorn}, title = {Crawl4AI MCP Server: High-performance Web Crawling for AI Assistants}, url = {https://github.com/BjornMelin/crawl4ai-mcp-server}, version = {1.0.0}, year = {2025}, month = {5} }

Лицензия

Массачусетский технологический институт

-
security - not tested
F
license - not found
-
quality - not tested

remote-capable server

The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.

Высокопроизводительный сервер, позволяющий помощникам на базе искусственного интеллекта получать доступ к возможностям веб-скрапинга, сканирования и глубокого исследования с помощью протокола Model Context Protocol.

  1. MCP-сервер Crawl4AI
    1. Обзор
    2. Документация
    3. Функции
    4. Структура проекта
    5. Начиная
    6. Разработка
    7. Развертывание
    8. Использование с клиентами MCP
    9. Конфигурация
    10. Дорожная карта
    11. Внося вклад
    12. Поддерживать
    13. Как цитировать
    14. Лицензия

Related MCP Servers

  • A
    security
    A
    license
    A
    quality
    A production-ready Model Context Protocol server that enables language models to leverage AI-powered web scraping capabilities, offering tools for transforming webpages to markdown, extracting structured data, and executing AI-powered web searches.
    Last updated -
    3
    16
    Python
    MIT License
    • Apple
  • -
    security
    A
    license
    -
    quality
    A Model Context Protocol server that enables AI assistants to perform advanced web scraping, crawling, searching, and data extraction through the Firecrawl API.
    Last updated -
    15,275
    MIT License
    • Apple
    • Linux
  • A
    security
    F
    license
    A
    quality
    A Model Context Protocol server that enables AI assistants to perform real-time web searches, retrieving up-to-date information from the internet via a Crawler API.
    Last updated -
    1
    44
    8
    JavaScript
    • Apple
    • Linux
  • -
    security
    A
    license
    -
    quality
    A Model Context Protocol server that provides real-time web search capabilities to AI assistants through pluggable search providers, currently integrated with the Brave Search API.
    Last updated -
    3
    TypeScript
    MIT License

View all related MCP servers

ID: qxqai2h895