⚠️ 공지사항

MCP 서버는 현재 개발 중입니다
생산용으로 사용할 준비가 되지 않았습니다
운영이 시작되면 업데이트됩니다

Crawl4AI MCP 서버

🚀 Crawl4AI용 고성능 MCP 서버 - AI 어시스턴트가 모델 컨텍스트 프로토콜(MCP)을 통해 웹 스크래핑, 크롤링 및 심층 분석에 액세스할 수 있도록 지원합니다. FireCrawl보다 빠르고 효율적입니다!

개요

이 프로젝트는 오픈소스 웹 스크래핑 및 크롤링 라이브러리인 Crawl4AI와 통합되는 맞춤형 MCP(Model Context Protocol) 서버를 구현합니다. 이 서버는 CloudFlare Workers에 원격 MCP 서버로 배포되어 Claude와 같은 AI 비서가 Crawl4AI의 강력한 웹 스크래핑 기능에 액세스할 수 있도록 합니다.

선적 서류 비치

이 프로젝트에 대한 자세한 내용은 다음 문서를 참조하세요.

마이그레이션 계획 - Firecrawl에서 Crawl4AI로 마이그레이션하기 위한 세부 계획
향상된 아키텍처 - 클라우드 공급자의 유연성을 갖춘 멀티 테넌트 아키텍처
구현 가이드 - 기술 구현 세부 사항 및 코드 예제
코드베이스 단순화 - 코드 단순화 및 구현된 모범 사례에 대한 세부 정보

특징

웹 데이터 수집

🌐 단일 웹페이지 스크래핑 : 개별 웹페이지에서 콘텐츠 추출
🕸️ 웹 크롤링 : 구성 가능한 깊이 및 페이지 제한으로 웹사이트 크롤링
🗺️ URL 검색 : 시작 지점에서 URL을 매핑하고 검색합니다.
🕸️ 비동기 크롤링 : 전체 웹사이트를 효율적으로 크롤링합니다.

콘텐츠 처리

🔍 심층 조사 : 여러 페이지에 걸쳐 포괄적인 조사를 수행합니다.
📊 구조화된 데이터 추출 : CSS 선택기 또는 LLM 기반 추출을 사용하여 특정 데이터 추출
🔎 콘텐츠 검색 : 이전에 크롤링된 콘텐츠를 검색합니다.

통합 및 보안

🔄 MCP 통합 : MCP 클라이언트(Claude Desktop 등)와 원활하게 통합됩니다.
🔒 OAuth 인증 : 적절한 권한 부여를 통한 보안 액세스
🔒 인증 옵션 : OAuth 또는 API 키(Bearer 토큰)를 통한 보안 액세스
⚡ 고성능 : 속도와 효율성을 위해 최적화됨

프로젝트 구조

지엑스피1

시작하기

필수 조건

Node.js (v18 이상)
엔피엠
Wrangler (CloudFlare Workers CLI)
CloudFlare 계정

설치

저장소를 복제합니다.
git clone https://github.com/BjornMelin/crawl4ai-mcp-server.git cd crawl4ai-mcp-server
종속성 설치:
npm install
CloudFlare KV 네임스페이스 설정:
wrangler kv:namespace create CRAWL_DATA
wrangler.toml KV 네임스페이스 ID로 업데이트합니다.
kv_namespaces = [ { binding = "CRAWL_DATA", id = "your-namespace-id" } ]

개발

지역 개발

개발 서버를 시작합니다.
npm run dev
서버는 http://localhost:8787 에서 사용할 수 있습니다.

전개

CloudFlare Workers에 배포:
npm run deploy
귀하의 서버는 배포된 작업자에게 할당된 CloudFlare Workers URL에서 사용할 수 있습니다.

MCP 클라이언트와 함께 사용

이 서버는 모델 컨텍스트 프로토콜을 구현하여 AI 어시스턴트가 해당 도구에 액세스할 수 있도록 합니다.

입증

workers-oauth-provider를 사용하여 OAuth 인증 구현
Bearer 토큰을 사용하여 API 키 인증 추가
로그인 페이지 및 토큰 관리 생성

MCP 클라이언트에 연결

배포된 작업자에게 할당된 CloudFlare Workers URL을 사용하세요.
Claude Desktop 또는 다른 MCP 클라이언트에서 이 서버를 도구 소스로 추가합니다.

사용 가능한 도구

crawl : 시작 URL에서 웹 페이지 크롤링
getCrawl : ID로 크롤링 데이터 검색
listCrawls : 모든 크롤링을 나열하거나 도메인별로 필터링합니다.
search : 쿼리로 인덱스된 문서 검색
extract : URL에서 구조화된 콘텐츠 추출

구성

서버는 wrangler.toml 에서 환경 변수를 수정하여 구성할 수 있습니다.

MAX_CRAWL_DEPTH : 웹 크롤링의 최대 깊이(기본값: 3)
MAX_CRAWL_PAGES : 크롤링할 최대 페이지 수(기본값: 100)
API_VERSION : API 버전 문자열(기본값: "v1")
OAUTH_CLIENT_ID : 인증을 위한 OAuth 클라이언트 ID
OAUTH_CLIENT_SECRET : 인증을 위한 OAuth 클라이언트 비밀번호

로드맵

이 프로젝트는 다음 구성 요소를 염두에 두고 개발되었습니다.

프로젝트 설정 및 구성 : CloudFlare Worker 설정, TypeScript 구성
MCP 서버 및 도구 스키마 : 도구 정의를 사용한 MCP 서버 구현
Crawl4AI 어댑터 : Crawl4AI 기능과의 통합
OAuth 인증 : 보안 인증 구현
성능 최적화 : 속도 및 안정성 향상
고급 추출 기능 : 구조화된 데이터 추출 기능 개선

기여하다

기여를 환영합니다! 기능이나 버그 수정 작업을 시작하기 전에 공개 이슈를 확인하거나 새 이슈를 생성해 주세요. 자세한 지침은 기여 가이드라인을 참조하세요.

지원하다

문제가 발생하거나 질문이 있는 경우:

GitHub 저장소에서 이슈를 열어보세요
Crawl4AI 문서를 확인하세요
모델 컨텍스트 프로토콜 사양을 참조하세요.

인용 방법

연구나 프로젝트에 Crawl4AI MCP 서버를 사용하는 경우 다음 BibTeX 항목을 사용하여 인용해 주세요.

@software{crawl4ai_mcp_2025, author = {Melin, Bjorn}, title = {Crawl4AI MCP Server: High-performance Web Crawling for AI Assistants}, url = {https://github.com/BjornMelin/crawl4ai-mcp-server}, version = {1.0.0}, year = {2025}, month = {5} }

특허

MIT

This server cannot be installed

security - not tested

license - not found

quality - not tested

How are these scores calculated?

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

모델 컨텍스트 프로토콜을 통해 AI 어시스턴트가 웹 스크래핑, 크롤링 및 심층 연구 기능에 액세스할 수 있도록 하는 고성능 서버입니다.

Crawl4AI MCP 서버

Related MCP Servers

ScrapeGraph MCP Serverofficial
ScrapeGraphAI
A
security
A
license
A
quality
A production-ready Model Context Protocol server that enables language models to leverage AI-powered web scraping capabilities, offering tools for transforming webpages to markdown, extracting structured data, and executing AI-powered web searches.
Last updated -
5
38
MIT License
Firecrawl MCP Server
mcma123
-
security
A
license
-
quality
A Model Context Protocol server that enables AI assistants to perform advanced web scraping, crawling, searching, and data extraction through the Firecrawl API.
Last updated -
72,328
MIT License
WebSearch-MCP
mnhlt
A
security
F
license
A
quality
A Model Context Protocol server that enables AI assistants to perform real-time web searches, retrieving up-to-date information from the internet via a Crawler API.
Last updated -
1
285
17
Prysm MCP Server
pinkpixel-dev
A
security
A
license
A
quality
A Model Context Protocol server enabling AI assistants to scrape web content with high accuracy and flexibility, supporting multiple scraping modes and content formatting options.
Last updated -
4
26
2
MIT License

View all related MCP servers

Crawl4AI MCP Server