Skip to main content
Glama

mcp-server-webcrawl

by pragmar

mcp-서버-웹크롤

모델 컨텍스트 프로토콜(MCP)을 사용하여 웹 크롤링과 AI 언어 모델 간의 격차를 해소하세요. mcp-server-webcrawl을 사용하면 AI 클라이언트가 사용자의 지시에 따라 또는 자동으로 웹 콘텐츠를 필터링하고 분석합니다. 이 서버에는 부울 연산을 지원하는 전체 텍스트 검색 인터페이스, 유형별 리소스 필터링, HTTP 상태 등이 포함되어 있습니다.

mcp-server-webcrawl은 LLM에 웹 콘텐츠를 검색할 수 있는 완전한 메뉴를 제공하며 다양한 웹 크롤러와 함께 작동합니다.

mcp-server-webcrawl은 무료 오픈 소스이며, Claude Desktop과 Python(3.10 이상)이 필요합니다. 명령줄에서 pip install을 통해 설치합니다.

지엑스피1

특징

  • Claude 데스크탑 준비 완료
  • 전체 텍스트 검색 지원
  • 유형, 상태 등으로 필터링
  • 멀티 크롤러 호환
  • 고급/부울 및 필드 검색 지원

MCP 구성

Claude Desktop 메뉴에서 파일 > 설정 > 개발자로 이동합니다. '구성 편집'을 클릭하여 구성 파일을 찾은 후, 원하는 편집기에서 열고 datasrc 경로를 반영하도록 예제를 수정합니다.

필요에 따라 mcpServers 아래에 더 많은 mcp-server-webcrawl 연결을 설정할 수 있습니다.

{ "mcpServers": { "webcrawl": { "command": [varies by OS/env, see below], "args": [varies by crawler, see below] } } }

단계별 설정에 대한 자세한 내용은 설정 가이드를 참조하세요.

윈도우 대 macOS

Windows: 명령이 "mcp-server-webcrawl"로 설정됨

macOS: 명령어를 절대 경로로 설정, 즉 $ which mcp-server-webcrawl의 값

예를 들어:

"command": "/Users/yourusername/.local/bin/mcp-server-webcrawl",

시스템에서 mcp-server-webcrawl 실행 파일의 절대 경로를 찾으려면:

  1. 오픈 터미널
  2. which mcp-server-webcrawl 실행합니다.
  3. 반환된 전체 경로를 복사하여 구성 파일에 사용하세요.

wget(--mirror 사용)

datasrc 인수는 미러의 부모 디렉토리로 설정해야 합니다.

"args": ["--crawler", "wget", "--datasrc", "/path/to/wget/archives/"]

WARC

datasrc 인수는 WARC 파일의 상위 디렉토리로 설정해야 합니다.

"args": ["--crawler", "warc", "--datasrc", "/path/to/warc/archives/"]

인터로봇

datasrc 인수는 데이터베이스의 직접 경로로 설정해야 합니다.

"args": ["--crawler", "interrobot", "--datasrc", "/path/to/Documents/InterroBot/interrobot.v2.db"]

카타나

datasrc 인수는 루트 호스트 디렉터리로 설정해야 합니다. Katana는 호스트별로 페이지와 미디어를 구분하며, ./archives/example.com/example.com이 적절하고 예상됩니다. 더 복잡한 사이트는 크롤링 데이터를 원본 호스트 디렉터리로 확장합니다.

"args": ["--crawler", "katana", "--datasrc", "/path/to/katana/archives/"]

SiteOne( 오프라인 웹사이트 생성 사용)

datasrc 인수는 아카이브의 상위 디렉토리로 설정해야 하며, 보관이 활성화되어야 합니다.

"args": ["--crawler", "siteone", "--datasrc", "/path/to/SiteOne/archives/"]

부울 검색 구문

쿼리 엔진은 필드별( field: value ) 검색과 복잡한 부울 표현식을 지원합니다. 전체 텍스트는 url, content, headers 필드의 조합으로 지원됩니다.

API 인터페이스는 LLM에서 직접 사용하도록 설계되었지만, 검색 구문을 익히는 것이 도움이 될 수 있습니다. LLM에서 생성된 검색은 검사 가능하지만 일반적으로 UI에서 축소됩니다. 쿼리를 보려면 MCP 축소 가능을 확장하세요.

예제 쿼리

쿼리 예제설명
은둔전체 텍스트 단일 키워드 일치
"개인정보처리방침"전체 텍스트 일치 정확한 구문
경계*전체 텍스트 와일드카드는 boundar (경계, 경계)로 시작하는 결과와 일치합니다.
아이디: 12345id 필드는 ID로 특정 리소스와 일치합니다.
url: example.com/*url 필드는 example.com/을 포함하는 URL과 결과를 일치시킵니다.
유형: html유형 필드는 HTML 페이지에만 일치합니다.
상태: 200상태 필드는 특정 HTTP 상태 코드(200과 동일)와 일치합니다.
상태: >=400상태 필드는 특정 HTTP 상태 코드(400 이상)와 일치합니다.
콘텐츠: h1content 필드는 콘텐츠(HTTP 응답 본문, 종종 HTML이지만 항상 그런 것은 아님)와 일치합니다.
헤더: text/xml헤더 필드는 HTTP 응답 헤더와 일치합니다.
개인정보 보호정책 및 정책전체 텍스트는 둘 다 일치합니다
개인정보 보호정책전체 텍스트는 다음 중 하나와 일치합니다.
정책이 아닌 개인정보 보호전체 텍스트는 개인 정보 보호 정책을 포함하지 않습니다.
(로그인 또는 로그인) 및 양식전체 텍스트가 전체 텍스트 로그인 또는 양식을 사용한 로그인과 일치합니다.
유형: html AND 상태: 200전체 텍스트는 HTTP 성공이 있는 HTML 페이지와만 일치합니다.

필드 검색 정의

필드 검색은 검색 정확도를 높여 검색 인덱스에서 필터링할 열을 지정할 수 있도록 합니다. 전체 콘텐츠를 검색하는 대신 URL, 헤더, 콘텐츠 본문과 같은 특정 속성으로 쿼리를 제한할 수 있습니다. 이 방식은 크롤링 데이터에서 특정 속성이나 패턴을 찾을 때 효율성을 향상시킵니다.

필드설명
ID데이터베이스 ID
URL리소스 URL
유형유형의 열거된 목록(유형 표 참조)
상태HTTP 응답 코드
헤더HTTP 응답 헤더
콘텐츠HTTP 본문 - HTML, CSS, JS 등

콘텐츠 유형

크롤링에는 HTML 페이지 외에도 다양한 리소스 유형이 포함됩니다. type: 필드 검색을 사용하면 광범위한 콘텐츠 유형 그룹으로 필터링할 수 있으며, 특히 복잡한 확장자 쿼리 없이 이미지를 필터링할 때 유용합니다. 예를 들어, "login"이 없는 페이지를 찾으려면 type: html NOT content: login 검색하고, 이미지 리소스를 분석하려면 type: img 검색할 수 있습니다. 아래 표는 검색 시스템에서 지원되는 모든 콘텐츠 유형을 나열합니다.

유형설명
HTML웹 페이지
아이프레임아이프레임
이미지웹 이미지
오디오웹 오디오 파일
동영상웹 비디오 파일
세례반웹 글꼴 파일
스타일CSS 스타일시트
스크립트JavaScript 파일
RSSRSS 신디케이션 피드
텍스트일반 텍스트 콘텐츠
PDFPDF 파일
의사MS Word 문서
다른분류되지 않음
-
security - not tested
F
license - not found
-
quality - not tested

local-only server

The server can only run on the client's local machine because it depends on local resources.

웹 크롤링과 AI 언어 모델 간의 격차를 해소하세요. mcp-server-webcrawl을 사용하면 AI 클라이언트가 사용자의 지시에 따라 또는 자동으로 웹 콘텐츠를 필터링하고 분석하여 웹 콘텐츠에서 인사이트를 추출합니다.

WARC, wget, InterroBot, Katana 및 SiteOne 크롤러를 지원합니다.

  1. 특징
    1. MCP 구성
      1. 윈도우 대 macOS
      2. wget(--mirror 사용)
      3. WARC
      4. 인터로봇
      5. 카타나
      6. SiteOne( 오프라인 웹사이트 생성 사용)
    2. 부울 검색 구문
      1. 필드 검색 정의
        1. 콘텐츠 유형

          Related MCP Servers

          • -
            security
            A
            license
            -
            quality
            Crawl4AI MCP Server is an intelligent information retrieval server offering robust search capabilities and LLM-optimized web content understanding, utilizing multi-engine search and intelligent content extraction to efficiently gather and comprehend internet information.
            Last updated -
            81
            Python
            MIT License
            • Apple
            • Linux
          • -
            security
            A
            license
            -
            quality
            An MCP server that helps AI assistants access text content from websites that implement bot detection, bridging the gap between what you can see in your browser and what the AI can access.
            Last updated -
            1
            Python
            Apache 2.0
          • -
            security
            F
            license
            -
            quality
            An MCP server that crawls API documentation websites and exposes their content to AI models, enabling them to search, browse, and reference API specifications.
            Last updated -
            Python
          • -
            security
            -
            license
            -
            quality
            An MCP server that enhances Brave Search results by using Puppeteer to extract full webpage content and explore linked pages, enabling AI assistants to perform comprehensive web research with configurable depth.
            Last updated -
            1
            TypeScript

          View all related MCP servers

          MCP directory API

          We provide all the information about MCP servers via our MCP API.

          curl -X GET 'https://glama.ai/api/mcp/v1/servers/pragmar/mcp_server_webcrawl'

          If you have feedback or need assistance with the MCP directory API, please join our Discord server