mcp-server-webcrawl

by pragmar
Verified

local-only server

The server can only run on the client’s local machine because it depends on local resources.

Integrations

  • Enables browsing and analyzing web content crawled by Katana, with support for accessing and searching through cached text files.

  • Requires Python 3.10 or newer to run, with installation via pip package manager.

mcp-서버-웹크롤

모델 컨텍스트 프로토콜(MCP)을 사용하여 웹 크롤링과 AI 언어 모델 간의 격차를 해소하세요. mcp-server-webcrawl을 사용하면 AI 클라이언트가 사용자의 지시에 따라 또는 자동으로 웹 콘텐츠를 필터링하고 분석합니다. 이 서버에는 부울 연산을 지원하는 전체 텍스트 검색 인터페이스, 유형별 리소스 필터링, HTTP 상태 등이 포함되어 있습니다.

mcp-server-webcrawl은 LLM에 웹 콘텐츠를 검색할 수 있는 완전한 메뉴를 제공하며 다양한 웹 크롤러와 함께 작동합니다.

mcp-server-webcrawl은 무료 오픈 소스이며, Claude Desktop과 Python(3.10 이상)이 필요합니다. 명령줄에서 pip install을 통해 설치합니다.

지엑스피1

특징

  • Claude 데스크탑 준비 완료
  • 전체 텍스트 검색 지원
  • 유형, 상태 등으로 필터링
  • 멀티 크롤러 호환
  • 빠른 MCP 구성
  • ChatGPT 지원이 곧 제공됩니다.

MCP 구성

Claude Desktop 메뉴에서 파일 > 설정 > 개발자로 이동합니다. '구성 편집'을 클릭하여 구성 파일을 찾은 후, 원하는 편집기에서 열고 datasrc 경로를 반영하도록 예제를 수정합니다.

필요에 따라 mcpServers 아래에 더 많은 mcp-server-webcrawl 연결을 설정할 수 있습니다.

{ "mcpServers": { "webcrawl": { "command": "mcp-server-webcrawl", "args": [varies by crawler, see below] } } }

wget(--mirror 사용)

datasrc 인수는 미러의 부모 디렉토리로 설정해야 합니다.

"args": ["--crawler", "wget", "--datasrc", "/path/to/wget/archives/"]

WARC

datasrc 인수는 WARC 파일의 상위 디렉토리로 설정해야 합니다.

"args": ["--crawler", "warc", "--datasrc", "/path/to/warc/archives/"]

인터로봇

datasrc 인수는 데이터베이스의 직접 경로로 설정해야 합니다.

"args": ["--crawler", "interrobot", "--datasrc", "/path/to/Documents/InterroBot/interrobot.v2.db"]

카타나

datasrc 인수는 텍스트 캐시 파일의 상위 디렉토리로 설정해야 합니다.

"args": ["--crawler", "katana", "--datasrc", "/path/to/katana/archives/"]

SiteOne(아카이빙 사용)

datasrc 인수는 아카이브의 상위 디렉토리로 설정해야 하며, 보관이 활성화되어야 합니다.

"args": ["--crawler", "siteone", "--datasrc", "/path/to/SiteOne/archives/"]
-
security - not tested
F
license - not found
-
quality - not tested

웹 크롤링과 AI 언어 모델 간의 격차를 해소하세요. mcp-server-webcrawl을 사용하면 AI 클라이언트가 사용자의 지시에 따라 또는 자동으로 웹 콘텐츠를 필터링하고 분석하여 웹 콘텐츠에서 인사이트를 추출합니다.

WARC, wget, InterroBot, Katana 및 SiteOne 크롤러를 지원합니다.

  1. Features
    1. MCP Configuration
      1. wget (using --mirror)
      2. WARC
      3. InterroBot
      4. Katana
      5. SiteOne (using archiving)
    ID: 6roqjljpg8