Skip to main content
Glama

⚠️ 공지사항

MCP 서버는 현재 개발 중입니다
생산용으로 사용할 준비가 되지 않았습니다
운영이 시작되면 업데이트됩니다

Crawl4AI MCP 서버

🚀 Crawl4AI용 고성능 MCP 서버 - AI 어시스턴트가 모델 컨텍스트 프로토콜(MCP)을 통해 웹 스크래핑, 크롤링 및 심층 분석에 액세스할 수 있도록 지원합니다. FireCrawl보다 빠르고 효율적입니다!

개요

이 프로젝트는 오픈소스 웹 스크래핑 및 크롤링 라이브러리인 Crawl4AI와 통합되는 맞춤형 MCP(Model Context Protocol) 서버를 구현합니다. 이 서버는 CloudFlare Workers에 원격 MCP 서버로 배포되어 Claude와 같은 AI 비서가 Crawl4AI의 강력한 웹 스크래핑 기능에 액세스할 수 있도록 합니다.

Related MCP server: Firecrawl MCP Server

선적 서류 비치

이 프로젝트에 대한 자세한 내용은 다음 문서를 참조하세요.

특징

웹 데이터 수집

  • 🌐 단일 웹페이지 스크래핑 : 개별 웹페이지에서 콘텐츠 추출

  • 🕸️ 웹 크롤링 : 구성 가능한 깊이 및 페이지 제한으로 웹사이트 크롤링

  • 🗺️ URL 검색 : 시작 지점에서 URL을 매핑하고 검색합니다.

  • 🕸️ 비동기 크롤링 : 전체 웹사이트를 효율적으로 크롤링합니다.

콘텐츠 처리

  • 🔍 심층 조사 : 여러 페이지에 걸쳐 포괄적인 조사를 수행합니다.

  • 📊 구조화된 데이터 추출 : CSS 선택기 또는 LLM 기반 추출을 사용하여 특정 데이터 추출

  • 🔎 콘텐츠 검색 : 이전에 크롤링된 콘텐츠를 검색합니다.

통합 및 보안

  • 🔄 MCP 통합 : MCP 클라이언트(Claude Desktop 등)와 원활하게 통합됩니다.

  • 🔒 OAuth 인증 : 적절한 권한 부여를 통한 보안 액세스

  • 🔒 인증 옵션 : OAuth 또는 API 키(Bearer 토큰)를 통한 보안 액세스

  • 고성능 : 속도와 효율성을 위해 최적화됨

프로젝트 구조

지엑스피1

시작하기

필수 조건

설치

  1. 저장소를 복제합니다.

    git clone https://github.com/BjornMelin/crawl4ai-mcp-server.git cd crawl4ai-mcp-server
  2. 종속성 설치:

    npm install
  3. CloudFlare KV 네임스페이스 설정:

    wrangler kv:namespace create CRAWL_DATA
  4. wrangler.toml KV 네임스페이스 ID로 업데이트합니다.

    kv_namespaces = [ { binding = "CRAWL_DATA", id = "your-namespace-id" } ]

개발

지역 개발

  1. 개발 서버를 시작합니다.

    npm run dev
  2. 서버는 http://localhost:8787 에서 사용할 수 있습니다.

전개

  1. CloudFlare Workers에 배포:

    npm run deploy
  2. 귀하의 서버는 배포된 작업자에게 할당된 CloudFlare Workers URL에서 사용할 수 있습니다.

MCP 클라이언트와 함께 사용

이 서버는 모델 컨텍스트 프로토콜을 구현하여 AI 어시스턴트가 해당 도구에 액세스할 수 있도록 합니다.

입증

  • workers-oauth-provider를 사용하여 OAuth 인증 구현

  • Bearer 토큰을 사용하여 API 키 인증 추가

  • 로그인 페이지 및 토큰 관리 생성

MCP 클라이언트에 연결

  1. 배포된 작업자에게 할당된 CloudFlare Workers URL을 사용하세요.

  2. Claude Desktop 또는 다른 MCP 클라이언트에서 이 서버를 도구 소스로 추가합니다.

사용 가능한 도구

  • crawl : 시작 URL에서 웹 페이지 크롤링

  • getCrawl : ID로 크롤링 데이터 검색

  • listCrawls : 모든 크롤링을 나열하거나 도메인별로 필터링합니다.

  • search : 쿼리로 인덱스된 문서 검색

  • extract : URL에서 구조화된 콘텐츠 추출

구성

서버는 wrangler.toml 에서 환경 변수를 수정하여 구성할 수 있습니다.

  • MAX_CRAWL_DEPTH : 웹 크롤링의 최대 깊이(기본값: 3)

  • MAX_CRAWL_PAGES : 크롤링할 최대 페이지 수(기본값: 100)

  • API_VERSION : API 버전 문자열(기본값: "v1")

  • OAUTH_CLIENT_ID : 인증을 위한 OAuth 클라이언트 ID

  • OAUTH_CLIENT_SECRET : 인증을 위한 OAuth 클라이언트 비밀번호

로드맵

이 프로젝트는 다음 구성 요소를 염두에 두고 개발되었습니다.

  1. 프로젝트 설정 및 구성 : CloudFlare Worker 설정, TypeScript 구성

  2. MCP 서버 및 도구 스키마 : 도구 정의를 사용한 MCP 서버 구현

  3. Crawl4AI 어댑터 : Crawl4AI 기능과의 통합

  4. OAuth 인증 : 보안 인증 구현

  5. 성능 최적화 : 속도 및 안정성 향상

  6. 고급 추출 기능 : 구조화된 데이터 추출 기능 개선

기여하다

기여를 환영합니다! 기능이나 버그 수정 작업을 시작하기 전에 공개 이슈를 확인하거나 새 이슈를 생성해 주세요. 자세한 지침은 기여 가이드라인을 참조하세요.

지원하다

문제가 발생하거나 질문이 있는 경우:

인용 방법

연구나 프로젝트에 Crawl4AI MCP 서버를 사용하는 경우 다음 BibTeX 항목을 사용하여 인용해 주세요.

@software{crawl4ai_mcp_2025, author = {Melin, Bjorn}, title = {Crawl4AI MCP Server: High-performance Web Crawling for AI Assistants}, url = {https://github.com/BjornMelin/crawl4ai-mcp-server}, version = {1.0.0}, year = {2025}, month = {5} }

특허

MIT

-
security - not tested
F
license - not found
-
quality - not tested

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/BjornMelin/crawl4ai-mcp-server'

If you have feedback or need assistance with the MCP directory API, please join our Discord server