⚠️ 공지사항

MCP 서버는 현재 개발 중입니다
생산용으로 사용할 준비가 되지 않았습니다
운영이 시작되면 업데이트됩니다

Crawl4AI MCP 서버

🚀 Crawl4AI용 고성능 MCP 서버 - AI 어시스턴트가 모델 컨텍스트 프로토콜(MCP)을 통해 웹 스크래핑, 크롤링 및 심층 분석에 액세스할 수 있도록 지원합니다. FireCrawl보다 빠르고 효율적입니다!

개요

이 프로젝트는 오픈소스 웹 스크래핑 및 크롤링 라이브러리인 Crawl4AI와 통합되는 맞춤형 MCP(Model Context Protocol) 서버를 구현합니다. 이 서버는 CloudFlare Workers에 원격 MCP 서버로 배포되어 Claude와 같은 AI 비서가 Crawl4AI의 강력한 웹 스크래핑 기능에 액세스할 수 있도록 합니다.

Related MCP server: Firecrawl MCP Server

선적 서류 비치

이 프로젝트에 대한 자세한 내용은 다음 문서를 참조하세요.

마이그레이션 계획 - Firecrawl에서 Crawl4AI로 마이그레이션하기 위한 세부 계획
향상된 아키텍처 - 클라우드 공급자의 유연성을 갖춘 멀티 테넌트 아키텍처
구현 가이드 - 기술 구현 세부 사항 및 코드 예제
코드베이스 단순화 - 코드 단순화 및 구현된 모범 사례에 대한 세부 정보

특징

웹 데이터 수집

🌐 단일 웹페이지 스크래핑 : 개별 웹페이지에서 콘텐츠 추출
🕸️ 웹 크롤링 : 구성 가능한 깊이 및 페이지 제한으로 웹사이트 크롤링
🗺️ URL 검색 : 시작 지점에서 URL을 매핑하고 검색합니다.
🕸️ 비동기 크롤링 : 전체 웹사이트를 효율적으로 크롤링합니다.

콘텐츠 처리

🔍 심층 조사 : 여러 페이지에 걸쳐 포괄적인 조사를 수행합니다.
📊 구조화된 데이터 추출 : CSS 선택기 또는 LLM 기반 추출을 사용하여 특정 데이터 추출
🔎 콘텐츠 검색 : 이전에 크롤링된 콘텐츠를 검색합니다.

통합 및 보안

🔄 MCP 통합 : MCP 클라이언트(Claude Desktop 등)와 원활하게 통합됩니다.
🔒 OAuth 인증 : 적절한 권한 부여를 통한 보안 액세스
🔒 인증 옵션 : OAuth 또는 API 키(Bearer 토큰)를 통한 보안 액세스
⚡ 고성능 : 속도와 효율성을 위해 최적화됨

프로젝트 구조

지엑스피1

시작하기

필수 조건

Node.js (v18 이상)
엔피엠
Wrangler (CloudFlare Workers CLI)
CloudFlare 계정

설치

저장소를 복제합니다.

git clone https://github.com/BjornMelin/crawl4ai-mcp-server.git
cd crawl4ai-mcp-server

종속성 설치:
```
npm install
```
CloudFlare KV 네임스페이스 설정:
```
wrangler kv:namespace create CRAWL_DATA
```

wrangler.toml KV 네임스페이스 ID로 업데이트합니다.

kv_namespaces = [
  { binding = "CRAWL_DATA", id = "your-namespace-id" }
]

개발

지역 개발

개발 서버를 시작합니다.
```
npm run dev
```
서버는 http://localhost:8787 에서 사용할 수 있습니다.

전개

CloudFlare Workers에 배포:
```
npm run deploy
```
귀하의 서버는 배포된 작업자에게 할당된 CloudFlare Workers URL에서 사용할 수 있습니다.

MCP 클라이언트와 함께 사용

이 서버는 모델 컨텍스트 프로토콜을 구현하여 AI 어시스턴트가 해당 도구에 액세스할 수 있도록 합니다.

입증

workers-oauth-provider를 사용하여 OAuth 인증 구현
Bearer 토큰을 사용하여 API 키 인증 추가
로그인 페이지 및 토큰 관리 생성

MCP 클라이언트에 연결

배포된 작업자에게 할당된 CloudFlare Workers URL을 사용하세요.
Claude Desktop 또는 다른 MCP 클라이언트에서 이 서버를 도구 소스로 추가합니다.

사용 가능한 도구

crawl : 시작 URL에서 웹 페이지 크롤링
getCrawl : ID로 크롤링 데이터 검색
listCrawls : 모든 크롤링을 나열하거나 도메인별로 필터링합니다.
search : 쿼리로 인덱스된 문서 검색
extract : URL에서 구조화된 콘텐츠 추출

구성

서버는 wrangler.toml 에서 환경 변수를 수정하여 구성할 수 있습니다.

MAX_CRAWL_DEPTH : 웹 크롤링의 최대 깊이(기본값: 3)
MAX_CRAWL_PAGES : 크롤링할 최대 페이지 수(기본값: 100)
API_VERSION : API 버전 문자열(기본값: "v1")
OAUTH_CLIENT_ID : 인증을 위한 OAuth 클라이언트 ID
OAUTH_CLIENT_SECRET : 인증을 위한 OAuth 클라이언트 비밀번호

로드맵

이 프로젝트는 다음 구성 요소를 염두에 두고 개발되었습니다.

프로젝트 설정 및 구성 : CloudFlare Worker 설정, TypeScript 구성
MCP 서버 및 도구 스키마 : 도구 정의를 사용한 MCP 서버 구현
Crawl4AI 어댑터 : Crawl4AI 기능과의 통합
OAuth 인증 : 보안 인증 구현
성능 최적화 : 속도 및 안정성 향상
고급 추출 기능 : 구조화된 데이터 추출 기능 개선

기여하다

기여를 환영합니다! 기능이나 버그 수정 작업을 시작하기 전에 공개 이슈를 확인하거나 새 이슈를 생성해 주세요. 자세한 지침은 기여 가이드라인을 참조하세요.

지원하다

문제가 발생하거나 질문이 있는 경우:

GitHub 저장소에서 이슈를 열어보세요
Crawl4AI 문서를 확인하세요
모델 컨텍스트 프로토콜 사양을 참조하세요.

인용 방법

연구나 프로젝트에 Crawl4AI MCP 서버를 사용하는 경우 다음 BibTeX 항목을 사용하여 인용해 주세요.

@software{crawl4ai_mcp_2025,
  author = {Melin, Bjorn},
  title = {Crawl4AI MCP Server: High-performance Web Crawling for AI Assistants},
  url = {https://github.com/BjornMelin/crawl4ai-mcp-server},
  version = {1.0.0},
  year = {2025},
  month = {5}
}

특허

MIT

This server cannot be installed

F

license - not found

-

quality - not tested

C

maintenance

How are these scores calculated?

Resources

GitHub Repository

Need Help?

Related Servers

Crawl4AI MCP Server