Fetch MCP

by jae-jae
Verified

local-only server

The server can only run on the client’s local machine because it depends on local resources.

Integrations

  • Enables fetching and processing of dynamic web content that relies on JavaScript, executing client-side scripts to render full page content that traditional scrapers would miss.

  • Offers conversion of fetched web content to Markdown format, making it easy to integrate the retrieved information into markdown-based applications.

페처 MCP

Playwright 헤드리스 브라우저를 사용하여 웹 페이지 콘텐츠를 가져오기 위한 MCP 서버입니다.

장점

  • JavaScript 지원 : 기존 웹 스크래퍼와 달리 Fetcher MCP는 Playwright를 사용하여 JavaScript를 실행하므로 동적 웹 콘텐츠와 최신 웹 애플리케이션을 처리할 수 있습니다.
  • 지능형 콘텐츠 추출 : 내장된 가독성 알고리즘이 웹 페이지에서 주요 콘텐츠를 자동으로 추출하여 광고, 탐색 기능 및 기타 필수적이지 않은 요소를 제거합니다.
  • 유연한 출력 형식 : HTML과 마크다운 출력 형식을 모두 지원하므로 다양한 다운스트림 애플리케이션과 쉽게 통합할 수 있습니다.
  • 병렬 처리 : fetch_urls 도구를 사용하면 여러 URL을 동시에 가져올 수 있어 일괄 작업의 효율성이 크게 향상됩니다.
  • 리소스 최적화 : 불필요한 리소스(이미지, 스타일시트, 글꼴, 미디어)를 자동으로 차단하여 대역폭 사용량을 줄이고 성능을 향상시킵니다.
  • 강력한 오류 처리 : 포괄적인 오류 처리 및 로깅을 통해 문제가 있는 웹 페이지를 처리할 때에도 안정적인 운영을 보장합니다.
  • 구성 가능한 매개변수 : 다양한 사용 사례에 맞게 시간 초과, 콘텐츠 추출 및 출력 형식에 대한 세부적인 제어가 가능합니다.

빠른 시작

npx로 직접 실행:

지엑스피1

최초 설정 - 터미널에서 다음 명령을 실행하여 필요한 브라우저를 설치하세요.

npx playwright install chromium

디버그 모드

디버깅을 위해 브라우저 창을 표시하려면 --debug 옵션과 함께 실행하세요.

npx -y fetcher-mcp --debug

구성 MCP

Claude Desktop에서 이 MCP 서버를 구성하세요.

MacOS의 경우: ~/Library/Application Support/Claude/claude_desktop_config.json

Windows의 경우: %APPDATA%/Claude/claude_desktop_config.json

{ "mcpServers": { "fetcher": { "command": "npx", "args": ["-y", "fetcher-mcp"] } } }

특징

  • fetch_url - 지정된 URL에서 웹 페이지 콘텐츠를 검색합니다.
    • Playwright 헤드리스 브라우저를 사용하여 JavaScript를 구문 분석합니다.
    • 주요 콘텐츠의 지능적 추출 및 마크다운으로의 변환을 지원합니다.
    • 다음 매개변수를 지원합니다.
      • url : 가져올 웹 페이지의 URL(필수 매개변수)
      • timeout : 페이지 로딩 시간 초과(밀리초), 기본값은 30000(30초)입니다.
      • waitUntil : 탐색이 완료된 것으로 간주되는 시점을 지정합니다. 옵션: 'load', 'domcontentloaded', 'networkidle', 'commit', 기본값은 'load'입니다.
      • extractContent : 주요 콘텐츠를 지능적으로 추출할지 여부, 기본값은 true입니다.
      • maxLength : 반환되는 콘텐츠의 최대 길이(문자), 기본값은 제한 없음
      • returnHtml : Markdown 대신 HTML 콘텐츠를 반환할지 여부, 기본값은 false입니다.
      • waitForNavigation : 초기 페이지 로드 후 추가 탐색을 기다릴지 여부(봇 방지 검증이 있는 사이트에 유용함), 기본값은 false입니다.
      • navigationTimeout : 추가 탐색을 기다리는 최대 시간(밀리초), 기본값은 10000(10초)입니다.
      • disableMedia : 미디어 리소스(이미지, 스타일시트, 글꼴, 미디어)를 비활성화할지 여부, 기본값은 true입니다.
      • debug : 디버그 모드(브라우저 창 표시)를 활성화할지 여부, 지정된 경우 --debug 명령줄 플래그를 재정의합니다.
  • fetch_urls - 여러 URL에서 웹 페이지 콘텐츠를 병렬로 일괄 검색합니다.
    • 향상된 성능을 위해 다중 탭 병렬 페칭을 사용합니다.
    • 웹 페이지 간 명확한 분리를 통해 결합된 결과를 반환합니다.
    • 다음 매개변수를 지원합니다.
      • urls : 가져올 URL 배열(필수 매개변수)
      • 다른 매개변수는 fetch_url 과 동일합니다.

특수 웹사이트 시나리오 처리

크롤러 방지 메커니즘 처리

  • 로딩이 완료될 때까지 기다리세요 . CAPTCHA, 리디렉션 또는 기타 확인 메커니즘을 사용하는 웹사이트의 경우 프롬프트에 다음을 포함하세요.
    Please wait for the page to fully load
    여기서는 waitForNavigation: true 매개변수를 사용합니다.
  • 시간 초과 기간 늘리기 : 로드 속도가 느린 웹사이트의 경우:
    Please set the page loading timeout to 60 seconds
    이렇게 하면 timeoutnavigationTimeout 매개변수가 모두 그에 따라 조정됩니다.

콘텐츠 검색 조정

  • 원래 HTML 구조 유지 : 콘텐츠 추출이 실패할 수 있는 경우:
    Please preserve the original HTML content
    extractContent: falsereturnHtml: true 설정합니다.
  • 전체 페이지 콘텐츠 가져오기 : 추출된 콘텐츠가 너무 제한적인 경우:
    Please fetch the complete webpage content instead of just the main content
    extractContent: false 설정합니다.
  • HTML로 콘텐츠 반환 : 기본 마크다운 대신 HTML 형식이 필요한 경우:
    Please return the content in HTML format
    returnHtml: true 설정합니다.

디버깅 및 인증

디버그 모드 활성화

  • 동적 디버그 활성화 : 특정 가져오기 작업 중에 브라우저 창을 표시하려면 다음을 수행합니다.
    Please enable debug mode for this fetch operation
    --debug 플래그 없이 서버를 시작한 경우에도 debug: true 로 설정됩니다.

인증을 위한 사용자 지정 쿠키 사용

  • 수동 로그인 : 본인의 자격 증명을 사용하여 로그인하려면:
    Please run in debug mode so I can manually log in to the website
    debug: true 설정하거나 --debug 플래그를 사용하여 수동 로그인을 위해 브라우저 창을 열어 둡니다.
  • 디버그 브라우저와 상호 작용 : 디버그 모드가 활성화된 경우:
    1. 브라우저 창은 계속 열려 있습니다
    2. 귀하의 자격 증명을 사용하여 수동으로 웹사이트에 로그인할 수 있습니다.
    3. 로그인이 완료되면 인증된 세션을 통해 콘텐츠가 가져옵니다.
  • 특정 요청에 대한 디버그 활성화 : 서버가 이미 실행 중이더라도 특정 요청에 대해 디버그 모드를 활성화할 수 있습니다.
    Please enable debug mode for this authentication step
    이 특정 요청에 대해서만 debug: true 설정하고, 수동 로그인을 위해 브라우저 창을 엽니다.

개발

종속성 설치

npm install

Playwright Browser 설치

Playwright에 필요한 브라우저를 설치하세요:

npm run install-browser

서버 구축

npm run build

디버깅

디버깅을 위해 MCP Inspector를 사용하세요.

npm run inspector

디버깅을 위해 표시되는 브라우저 모드를 활성화할 수도 있습니다.

node build/index.js --debug

관련 프로젝트

  • g-search-mcp : 여러 키워드를 동시에 사용하여 병렬 검색을 지원하는 강력한 Google 검색용 MCP 서버입니다. 일괄 검색 작업 및 데이터 수집에 적합합니다.

특허

MIT 라이선스 에 따라 라이센스됨

You must be authenticated.

A
security – no known vulnerabilities
A
license - permissive license
A
quality - confirmed to work

Playwright 헤드리스 브라우저를 사용하여 웹 페이지 콘텐츠를 검색하고, 주요 콘텐츠를 추출하여 Markdown 형식으로 변환할 수 있는 MCP 서버입니다.

  1. Advantages
    1. Quick Start
      1. Debug Mode
    2. Configuration MCP
      1. Features
        1. Tips
          1. Handling Special Website Scenarios
          2. Debugging and Authentication
        2. Development
          1. Install Dependencies
          2. Install Playwright Browser
          3. Build the Server
        3. Debugging
          1. Related Projects
            1. License
              ID: o6qc1j6a1z