⚠️ 공지사항
MCP 서버는 현재 개발 중입니다
생산용으로 사용할 준비가 되지 않았습니다
운영이 시작되면 업데이트됩니다
Crawl4AI MCP 서버
🚀 Crawl4AI용 고성능 MCP 서버 - AI 어시스턴트가 모델 컨텍스트 프로토콜(MCP)을 통해 웹 스크래핑, 크롤링 및 심층 분석에 액세스할 수 있도록 지원합니다. FireCrawl보다 빠르고 효율적입니다!
개요
이 프로젝트는 오픈소스 웹 스크래핑 및 크롤링 라이브러리인 Crawl4AI와 통합되는 맞춤형 MCP(Model Context Protocol) 서버를 구현합니다. 이 서버는 CloudFlare Workers에 원격 MCP 서버로 배포되어 Claude와 같은 AI 비서가 Crawl4AI의 강력한 웹 스크래핑 기능에 액세스할 수 있도록 합니다.
Related MCP server: Firecrawl MCP Server
선적 서류 비치
이 프로젝트에 대한 자세한 내용은 다음 문서를 참조하세요.
마이그레이션 계획 - Firecrawl에서 Crawl4AI로 마이그레이션하기 위한 세부 계획
향상된 아키텍처 - 클라우드 공급자의 유연성을 갖춘 멀티 테넌트 아키텍처
구현 가이드 - 기술 구현 세부 사항 및 코드 예제
코드베이스 단순화 - 코드 단순화 및 구현된 모범 사례에 대한 세부 정보
특징
웹 데이터 수집
🌐 단일 웹페이지 스크래핑 : 개별 웹페이지에서 콘텐츠 추출
🕸️ 웹 크롤링 : 구성 가능한 깊이 및 페이지 제한으로 웹사이트 크롤링
🗺️ URL 검색 : 시작 지점에서 URL을 매핑하고 검색합니다.
🕸️ 비동기 크롤링 : 전체 웹사이트를 효율적으로 크롤링합니다.
콘텐츠 처리
🔍 심층 조사 : 여러 페이지에 걸쳐 포괄적인 조사를 수행합니다.
📊 구조화된 데이터 추출 : CSS 선택기 또는 LLM 기반 추출을 사용하여 특정 데이터 추출
🔎 콘텐츠 검색 : 이전에 크롤링된 콘텐츠를 검색합니다.
통합 및 보안
🔄 MCP 통합 : MCP 클라이언트(Claude Desktop 등)와 원활하게 통합됩니다.
🔒 OAuth 인증 : 적절한 권한 부여를 통한 보안 액세스
🔒 인증 옵션 : OAuth 또는 API 키(Bearer 토큰)를 통한 보안 액세스
⚡ 고성능 : 속도와 효율성을 위해 최적화됨
프로젝트 구조
지엑스피1
시작하기
필수 조건
설치
저장소를 복제합니다.
git clone https://github.com/BjornMelin/crawl4ai-mcp-server.git cd crawl4ai-mcp-server종속성 설치:
npm installCloudFlare KV 네임스페이스 설정:
wrangler kv:namespace create CRAWL_DATAwrangler.tomlKV 네임스페이스 ID로 업데이트합니다.kv_namespaces = [ { binding = "CRAWL_DATA", id = "your-namespace-id" } ]
개발
지역 개발
개발 서버를 시작합니다.
npm run dev서버는 http://localhost:8787 에서 사용할 수 있습니다.
전개
CloudFlare Workers에 배포:
npm run deploy귀하의 서버는 배포된 작업자에게 할당된 CloudFlare Workers URL에서 사용할 수 있습니다.
MCP 클라이언트와 함께 사용
이 서버는 모델 컨텍스트 프로토콜을 구현하여 AI 어시스턴트가 해당 도구에 액세스할 수 있도록 합니다.
입증
workers-oauth-provider를 사용하여 OAuth 인증 구현
Bearer 토큰을 사용하여 API 키 인증 추가
로그인 페이지 및 토큰 관리 생성
MCP 클라이언트에 연결
배포된 작업자에게 할당된 CloudFlare Workers URL을 사용하세요.
Claude Desktop 또는 다른 MCP 클라이언트에서 이 서버를 도구 소스로 추가합니다.
사용 가능한 도구
crawl: 시작 URL에서 웹 페이지 크롤링getCrawl: ID로 크롤링 데이터 검색listCrawls: 모든 크롤링을 나열하거나 도메인별로 필터링합니다.search: 쿼리로 인덱스된 문서 검색extract: URL에서 구조화된 콘텐츠 추출
구성
서버는 wrangler.toml 에서 환경 변수를 수정하여 구성할 수 있습니다.
MAX_CRAWL_DEPTH: 웹 크롤링의 최대 깊이(기본값: 3)MAX_CRAWL_PAGES: 크롤링할 최대 페이지 수(기본값: 100)API_VERSION: API 버전 문자열(기본값: "v1")OAUTH_CLIENT_ID: 인증을 위한 OAuth 클라이언트 IDOAUTH_CLIENT_SECRET: 인증을 위한 OAuth 클라이언트 비밀번호
로드맵
이 프로젝트는 다음 구성 요소를 염두에 두고 개발되었습니다.
프로젝트 설정 및 구성 : CloudFlare Worker 설정, TypeScript 구성
MCP 서버 및 도구 스키마 : 도구 정의를 사용한 MCP 서버 구현
Crawl4AI 어댑터 : Crawl4AI 기능과의 통합
OAuth 인증 : 보안 인증 구현
성능 최적화 : 속도 및 안정성 향상
고급 추출 기능 : 구조화된 데이터 추출 기능 개선
기여하다
기여를 환영합니다! 기능이나 버그 수정 작업을 시작하기 전에 공개 이슈를 확인하거나 새 이슈를 생성해 주세요. 자세한 지침은 기여 가이드라인을 참조하세요.
지원하다
문제가 발생하거나 질문이 있는 경우:
GitHub 저장소에서 이슈를 열어보세요
Crawl4AI 문서를 확인하세요
모델 컨텍스트 프로토콜 사양을 참조하세요.
인용 방법
연구나 프로젝트에 Crawl4AI MCP 서버를 사용하는 경우 다음 BibTeX 항목을 사용하여 인용해 주세요.
@software{crawl4ai_mcp_2025,
author = {Melin, Bjorn},
title = {Crawl4AI MCP Server: High-performance Web Crawling for AI Assistants},
url = {https://github.com/BjornMelin/crawl4ai-mcp-server},
version = {1.0.0},
year = {2025},
month = {5}
}특허
Appeared in Searches
- Web search and data extraction capabilities for AI assistants
- A guide to conducting thorough web-based research
- A service for downloading files from MEGA cloud storage
- Enabling deep research modes in AI tools like Kimi and ChatGPT
- A server for finding rental listings on platforms like Facebook, Craigslist, Zillow, and Realtor.com