mcp-서버-웹크롤
모델 컨텍스트 프로토콜(MCP)을 사용하여 웹 크롤링과 AI 언어 모델 간의 격차를 해소하세요. mcp-server-webcrawl을 사용하면 AI 클라이언트가 사용자의 지시에 따라 또는 자동으로 웹 콘텐츠를 필터링하고 분석합니다. 이 서버에는 부울 연산을 지원하는 전체 텍스트 검색 인터페이스, 유형별 리소스 필터링, HTTP 상태 등이 포함되어 있습니다.
mcp-server-webcrawl은 LLM에 웹 콘텐츠를 검색할 수 있는 완전한 메뉴를 제공하며 다양한 웹 크롤러와 함께 작동합니다.
mcp-server-webcrawl은 무료 오픈 소스이며, Claude Desktop과 Python(3.10 이상)이 필요합니다. 명령줄에서 pip install을 통해 설치합니다.
지엑스피1
특징
- Claude 데스크탑 준비 완료
- 전체 텍스트 검색 지원
- 유형, 상태 등으로 필터링
- 멀티 크롤러 호환
- 고급/부울 및 필드 검색 지원
MCP 구성
Claude Desktop 메뉴에서 파일 > 설정 > 개발자로 이동합니다. '구성 편집'을 클릭하여 구성 파일을 찾은 후, 원하는 편집기에서 열고 datasrc 경로를 반영하도록 예제를 수정합니다.
필요에 따라 mcpServers 아래에 더 많은 mcp-server-webcrawl 연결을 설정할 수 있습니다.
단계별 설정에 대한 자세한 내용은 설정 가이드를 참조하세요.
윈도우 대 macOS
Windows: 명령이 "mcp-server-webcrawl"로 설정됨
macOS: 명령어를 절대 경로로 설정, 즉 $ which mcp-server-webcrawl의 값
예를 들어:
시스템에서 mcp-server-webcrawl
실행 파일의 절대 경로를 찾으려면:
- 오픈 터미널
which mcp-server-webcrawl
실행합니다.- 반환된 전체 경로를 복사하여 구성 파일에 사용하세요.
wget(--mirror 사용)
datasrc 인수는 미러의 부모 디렉토리로 설정해야 합니다.
WARC
datasrc 인수는 WARC 파일의 상위 디렉토리로 설정해야 합니다.
인터로봇
datasrc 인수는 데이터베이스의 직접 경로로 설정해야 합니다.
카타나
datasrc 인수는 루트 호스트 디렉터리로 설정해야 합니다. Katana는 호스트별로 페이지와 미디어를 구분하며, ./archives/example.com/example.com이 적절하고 예상됩니다. 더 복잡한 사이트는 크롤링 데이터를 원본 호스트 디렉터리로 확장합니다.
SiteOne( 오프라인 웹사이트 생성 사용)
datasrc 인수는 아카이브의 상위 디렉토리로 설정해야 하며, 보관이 활성화되어야 합니다.
부울 검색 구문
쿼리 엔진은 필드별( field: value
) 검색과 복잡한 부울 표현식을 지원합니다. 전체 텍스트는 url, content, headers 필드의 조합으로 지원됩니다.
API 인터페이스는 LLM에서 직접 사용하도록 설계되었지만, 검색 구문을 익히는 것이 도움이 될 수 있습니다. LLM에서 생성된 검색은 검사 가능하지만 일반적으로 UI에서 축소됩니다. 쿼리를 보려면 MCP 축소 가능을 확장하세요.
예제 쿼리
쿼리 예제 | 설명 |
---|---|
은둔 | 전체 텍스트 단일 키워드 일치 |
"개인정보처리방침" | 전체 텍스트 일치 정확한 구문 |
경계* | 전체 텍스트 와일드카드는 boundar (경계, 경계)로 시작하는 결과와 일치합니다. |
아이디: 12345 | id 필드는 ID로 특정 리소스와 일치합니다. |
url: example.com/* | url 필드는 example.com/을 포함하는 URL과 결과를 일치시킵니다. |
유형: html | 유형 필드는 HTML 페이지에만 일치합니다. |
상태: 200 | 상태 필드는 특정 HTTP 상태 코드(200과 동일)와 일치합니다. |
상태: >=400 | 상태 필드는 특정 HTTP 상태 코드(400 이상)와 일치합니다. |
콘텐츠: h1 | content 필드는 콘텐츠(HTTP 응답 본문, 종종 HTML이지만 항상 그런 것은 아님)와 일치합니다. |
헤더: text/xml | 헤더 필드는 HTTP 응답 헤더와 일치합니다. |
개인정보 보호정책 및 정책 | 전체 텍스트는 둘 다 일치합니다 |
개인정보 보호정책 | 전체 텍스트는 다음 중 하나와 일치합니다. |
정책이 아닌 개인정보 보호 | 전체 텍스트는 개인 정보 보호 정책을 포함하지 않습니다. |
(로그인 또는 로그인) 및 양식 | 전체 텍스트가 전체 텍스트 로그인 또는 양식을 사용한 로그인과 일치합니다. |
유형: html AND 상태: 200 | 전체 텍스트는 HTTP 성공이 있는 HTML 페이지와만 일치합니다. |
필드 검색 정의
필드 검색은 검색 정확도를 높여 검색 인덱스에서 필터링할 열을 지정할 수 있도록 합니다. 전체 콘텐츠를 검색하는 대신 URL, 헤더, 콘텐츠 본문과 같은 특정 속성으로 쿼리를 제한할 수 있습니다. 이 방식은 크롤링 데이터에서 특정 속성이나 패턴을 찾을 때 효율성을 향상시킵니다.
필드 | 설명 |
---|---|
ID | 데이터베이스 ID |
URL | 리소스 URL |
유형 | 유형의 열거된 목록(유형 표 참조) |
상태 | HTTP 응답 코드 |
헤더 | HTTP 응답 헤더 |
콘텐츠 | HTTP 본문 - HTML, CSS, JS 등 |
콘텐츠 유형
크롤링에는 HTML 페이지 외에도 다양한 리소스 유형이 포함됩니다. type:
필드 검색을 사용하면 광범위한 콘텐츠 유형 그룹으로 필터링할 수 있으며, 특히 복잡한 확장자 쿼리 없이 이미지를 필터링할 때 유용합니다. 예를 들어, "login"이 없는 페이지를 찾으려면 type: html NOT content: login
검색하고, 이미지 리소스를 분석하려면 type: img
검색할 수 있습니다. 아래 표는 검색 시스템에서 지원되는 모든 콘텐츠 유형을 나열합니다.
유형 | 설명 |
---|---|
HTML | 웹 페이지 |
아이프레임 | 아이프레임 |
이미지 | 웹 이미지 |
오디오 | 웹 오디오 파일 |
동영상 | 웹 비디오 파일 |
세례반 | 웹 글꼴 파일 |
스타일 | CSS 스타일시트 |
스크립트 | JavaScript 파일 |
RSS | RSS 신디케이션 피드 |
텍스트 | 일반 텍스트 콘텐츠 |
PDF 파일 | |
의사 | MS Word 문서 |
다른 | 분류되지 않음 |
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
웹 크롤링과 AI 언어 모델 간의 격차를 해소하세요. mcp-server-webcrawl을 사용하면 AI 클라이언트가 사용자의 지시에 따라 또는 자동으로 웹 콘텐츠를 필터링하고 분석하여 웹 콘텐츠에서 인사이트를 추출합니다.
WARC, wget, InterroBot, Katana 및 SiteOne 크롤러를 지원합니다.
Related MCP Servers
- -securityAlicense-qualityCrawl4AI MCP Server is an intelligent information retrieval server offering robust search capabilities and LLM-optimized web content understanding, utilizing multi-engine search and intelligent content extraction to efficiently gather and comprehend internet information.Last updated -81PythonMIT License
- -securityAlicense-qualityAn MCP server that helps AI assistants access text content from websites that implement bot detection, bridging the gap between what you can see in your browser and what the AI can access.Last updated -1PythonApache 2.0
- -securityFlicense-qualityAn MCP server that crawls API documentation websites and exposes their content to AI models, enabling them to search, browse, and reference API specifications.Last updated -Python
- -security-license-qualityAn MCP server that enhances Brave Search results by using Puppeteer to extract full webpage content and explore linked pages, enabling AI assistants to perform comprehensive web research with configurable depth.Last updated -1TypeScript