mcp-서버-웹크롤

모델 컨텍스트 프로토콜(MCP)을 사용하여 웹 크롤링과 AI 언어 모델 간의 격차를 해소하세요. mcp-server-webcrawl을 사용하면 AI 클라이언트가 사용자의 지시에 따라 또는 자동으로 웹 콘텐츠를 필터링하고 분석합니다. 이 서버에는 부울 연산을 지원하는 전체 텍스트 검색 인터페이스, 유형별 리소스 필터링, HTTP 상태 등이 포함되어 있습니다.

mcp-server-webcrawl은 LLM에 웹 콘텐츠를 검색할 수 있는 완전한 메뉴를 제공하며 다양한 웹 크롤러와 함께 작동합니다.

mcp-server-webcrawl은 무료 오픈 소스이며, Claude Desktop과 Python(3.10 이상)이 필요합니다. 명령줄에서 pip install을 통해 설치합니다.

지엑스피1

특징

Claude 데스크탑 준비 완료
전체 텍스트 검색 지원
유형, 상태 등으로 필터링
멀티 크롤러 호환
고급/부울 및 필드 검색 지원

MCP 구성

Claude Desktop 메뉴에서 파일 > 설정 > 개발자로 이동합니다. '구성 편집'을 클릭하여 구성 파일을 찾은 후, 원하는 편집기에서 열고 datasrc 경로를 반영하도록 예제를 수정합니다.

필요에 따라 mcpServers 아래에 더 많은 mcp-server-webcrawl 연결을 설정할 수 있습니다.

{ "mcpServers": { "webcrawl": { "command": [varies by OS/env, see below], "args": [varies by crawler, see below] } } }

단계별 설정에 대한 자세한 내용은 설정 가이드를 참조하세요.

윈도우 대 macOS

Windows: 명령이 "mcp-server-webcrawl"로 설정됨

macOS: 명령어를 절대 경로로 설정, 즉 $ which mcp-server-webcrawl의 값

예를 들어:

"command": "/Users/yourusername/.local/bin/mcp-server-webcrawl",

시스템에서 mcp-server-webcrawl 실행 파일의 절대 경로를 찾으려면:

오픈 터미널
which mcp-server-webcrawl 실행합니다.
반환된 전체 경로를 복사하여 구성 파일에 사용하세요.

wget(--mirror 사용)

datasrc 인수는 미러의 부모 디렉토리로 설정해야 합니다.

"args": ["--crawler", "wget", "--datasrc", "/path/to/wget/archives/"]

WARC

datasrc 인수는 WARC 파일의 상위 디렉토리로 설정해야 합니다.

"args": ["--crawler", "warc", "--datasrc", "/path/to/warc/archives/"]

인터로봇

datasrc 인수는 데이터베이스의 직접 경로로 설정해야 합니다.

"args": ["--crawler", "interrobot", "--datasrc", "/path/to/Documents/InterroBot/interrobot.v2.db"]

카타나

datasrc 인수는 루트 호스트 디렉터리로 설정해야 합니다. Katana는 호스트별로 페이지와 미디어를 구분하며, ./archives/example.com/example.com이 적절하고 예상됩니다. 더 복잡한 사이트는 크롤링 데이터를 원본 호스트 디렉터리로 확장합니다.

"args": ["--crawler", "katana", "--datasrc", "/path/to/katana/archives/"]

SiteOne( 오프라인 웹사이트 생성 사용)

datasrc 인수는 아카이브의 상위 디렉토리로 설정해야 하며, 보관이 활성화되어야 합니다.

"args": ["--crawler", "siteone", "--datasrc", "/path/to/SiteOne/archives/"]

부울 검색 구문

쿼리 엔진은 필드별( field: value ) 검색과 복잡한 부울 표현식을 지원합니다. 전체 텍스트는 url, content, headers 필드의 조합으로 지원됩니다.

API 인터페이스는 LLM에서 직접 사용하도록 설계되었지만, 검색 구문을 익히는 것이 도움이 될 수 있습니다. LLM에서 생성된 검색은 검사 가능하지만 일반적으로 UI에서 축소됩니다. 쿼리를 보려면 MCP 축소 가능을 확장하세요.

예제 쿼리

쿼리 예제	설명
은둔	전체 텍스트 단일 키워드 일치
"개인정보처리방침"	전체 텍스트 일치 정확한 구문
경계*	전체 텍스트 와일드카드는 boundar (경계, 경계)로 시작하는 결과와 일치합니다.
아이디: 12345	id 필드는 ID로 특정 리소스와 일치합니다.
url: example.com/*	url 필드는 example.com/을 포함하는 URL과 결과를 일치시킵니다.
유형: html	유형 필드는 HTML 페이지에만 일치합니다.
상태: 200	상태 필드는 특정 HTTP 상태 코드(200과 동일)와 일치합니다.
상태: >=400	상태 필드는 특정 HTTP 상태 코드(400 이상)와 일치합니다.
콘텐츠: h1	content 필드는 콘텐츠(HTTP 응답 본문, 종종 HTML이지만 항상 그런 것은 아님)와 일치합니다.
헤더: text/xml	헤더 필드는 HTTP 응답 헤더와 일치합니다.
개인정보 보호정책 및 정책	전체 텍스트는 둘 다 일치합니다
개인정보 보호정책	전체 텍스트는 다음 중 하나와 일치합니다.
정책이 아닌 개인정보 보호	전체 텍스트는 개인 정보 보호 정책을 포함하지 않습니다.
(로그인 또는 로그인) 및 양식	전체 텍스트가 전체 텍스트 로그인 또는 양식을 사용한 로그인과 일치합니다.
유형: html AND 상태: 200	전체 텍스트는 HTTP 성공이 있는 HTML 페이지와만 일치합니다.

필드 검색 정의

필드 검색은 검색 정확도를 높여 검색 인덱스에서 필터링할 열을 지정할 수 있도록 합니다. 전체 콘텐츠를 검색하는 대신 URL, 헤더, 콘텐츠 본문과 같은 특정 속성으로 쿼리를 제한할 수 있습니다. 이 방식은 크롤링 데이터에서 특정 속성이나 패턴을 찾을 때 효율성을 향상시킵니다.

필드	설명
ID	데이터베이스 ID
URL	리소스 URL
유형	유형의 열거된 목록(유형 표 참조)
상태	HTTP 응답 코드
헤더	HTTP 응답 헤더
콘텐츠	HTTP 본문 - HTML, CSS, JS 등

콘텐츠 유형

크롤링에는 HTML 페이지 외에도 다양한 리소스 유형이 포함됩니다. type: 필드 검색을 사용하면 광범위한 콘텐츠 유형 그룹으로 필터링할 수 있으며, 특히 복잡한 확장자 쿼리 없이 이미지를 필터링할 때 유용합니다. 예를 들어, "login"이 없는 페이지를 찾으려면 type: html NOT content: login 검색하고, 이미지 리소스를 분석하려면 type: img 검색할 수 있습니다. 아래 표는 검색 시스템에서 지원되는 모든 콘텐츠 유형을 나열합니다.

유형	설명
HTML	웹 페이지
아이프레임	아이프레임
이미지	웹 이미지
오디오	웹 오디오 파일
동영상	웹 비디오 파일
세례반	웹 글꼴 파일
스타일	CSS 스타일시트
스크립트	JavaScript 파일
RSS	RSS 신디케이션 피드
텍스트	일반 텍스트 콘텐츠
PDF	PDF 파일
의사	MS Word 문서
다른	분류되지 않음

This server cannot be installed

security - not tested

license - not tested

quality - not tested

How are these scores calculated?

local-only server

The server can only run on the client's local machine because it depends on local resources.

웹 크롤링과 AI 언어 모델 간의 격차를 해소하세요. mcp-server-webcrawl을 사용하면 AI 클라이언트가 사용자의 지시에 따라 또는 자동으로 웹 콘텐츠를 필터링하고 분석하여 웹 콘텐츠에서 인사이트를 추출합니다.

WARC, wget, InterroBot, Katana 및 SiteOne 크롤러를 지원합니다.

Related MCP Servers

Crawl4AI MCP Server
weidwonder
-
security
-
license
-
quality
Crawl4AI MCP Server is an intelligent information retrieval server offering robust search capabilities and LLM-optimized web content understanding, utilizing multi-engine search and intelligent content extraction to efficiently gather and comprehend internet information.
Last updated -
118
MIT License
pure.md MCP serverofficial
puremd
A
security
-
license
A
quality
An MCP server that enables AI clients like Cursor, Windsurf, and Claude Desktop to access web content in markdown format, providing web unblocking and searching capabilities.
Last updated -
2
32
41
API Docs MCP Server
ShotaNagafuchi
-
security
-
license
-
quality
An MCP server that crawls API documentation websites and exposes their content to AI models, enabling them to search, browse, and reference API specifications.
Last updated -
crawl4ai-mcp
ritvij14
A
security
-
license
A
quality
An MCP Server for Web scraping and Crawling, built using Crawl4AI
Last updated -
2
25

View all related MCP servers

mcp-server-webcrawl

mcp-서버-웹크롤

특징

MCP 구성

윈도우 대 macOS

wget(--mirror 사용)

WARC

인터로봇

카타나

SiteOne( 오프라인 웹사이트 생성 사용)

부울 검색 구문

필드 검색 정의

콘텐츠 유형

Related MCP Servers

Crawl4AI MCP Server

pure.md MCP serverofficial

API Docs MCP Server

crawl4ai-mcp

Appeared in Searches

New MCP Servers

MCP directory API