Scrapling Fetch MCP

by cyberchitta
Verified

remote-capable server

The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.

Integrations

  • Enables installation of the MCP server through PyPI's package repository, with version tracking and dependency management.

스크래플링 페치 MCP

봇 감지 기능을 구현한 웹사이트의 텍스트 콘텐츠에 AI 어시스턴트가 액세스할 수 있도록 돕는 MCP 서버로, 브라우저에서 볼 수 있는 내용과 AI가 액세스할 수 있는 내용 간의 차이를 메웁니다.

의도된 사용

이 도구는 봇 탐지 기능을 구현한 웹사이트에서 소량의 문서 및 참고 자료(텍스트/HTML 형식만 해당)를 검색하는 데 최적화되어 있습니다. 일반적인 사이트 스크래핑이나 데이터 수집용으로 설계되거나 테스트되지 않았습니다.

참고 : 이 프로젝트는 LLM Context를 사용하여 Claude Sonnet 3.7과 협업하여 개발되었습니다.

설치

  1. 요구 사항:
    • 파이썬 3.10+
    • uv 패키지 관리자
  2. 종속성과 도구를 설치합니다.

지엑스피1

Claude와 함께 설정

Claude 클라이언트의 MCP 서버 구성에 다음 구성을 추가합니다.

{ "mcpServers": { "Cyber-Chitta": { "command": "uvx", "args": ["scrapling-fetch-mcp"] } } }

사용 가능한 도구

이 패키지는 두 가지의 고유한 도구를 제공합니다.

  1. s-fetch-page : 페이지네이션 지원으로 전체 웹 페이지를 검색합니다.
  2. s-fetch-pattern : 주변 컨텍스트와 일치하는 정규식 패턴을 추출합니다.

사용 예

전체 페이지 가져오기

Human: Please fetch and summarize the documentation at https://example.com/docs Claude: I'll help you with that. Let me fetch the documentation. <mcp:function_calls> <mcp:invoke name="s-fetch-page"> <mcp:parameter name="url">https://example.com/docs</mcp:parameter> <mcp:parameter name="mode">basic</mcp:parameter> </mcp:invoke> </mcp:function_calls> Based on the documentation I retrieved, here's a summary...

패턴 매칭을 통한 특정 콘텐츠 추출

Human: Please find all mentions of "API keys" on the documentation page. Claude: I'll search for that specific information. <mcp:function_calls> <mcp:invoke name="s-fetch-pattern"> <mcp:parameter name="url">https://example.com/docs</mcp:parameter> <mcp:parameter name="mode">basic</mcp:parameter> <mcp:parameter name="search_pattern">API\s+keys?</mcp:parameter> <mcp:parameter name="context_chars">150</mcp:parameter> </mcp:invoke> </mcp:function_calls> I found several mentions of API keys in the documentation: ...

기능 옵션

  • 보호 수준 :
    • basic : 빠른 검색(1~2초)이 가능하지만, 보호가 철저한 사이트에서는 성공률이 낮음
    • stealth : 대부분의 사이트에서 작동하는 균형 잡힌 보호(3~8초)
    • max-stealth : 엄격하게 보호되는 사이트에 대한 최대 보호(10초 이상)
  • 콘텐츠 타겟팅 옵션 :
    • s-fetch-page : 페이지 매김 지원( start_indexmax_length 사용)을 통해 전체 페이지를 검색합니다.
    • s-fetch-pattern : 정규 표현식( search_patterncontext_chars 포함)을 사용하여 특정 콘텐츠 추출
      • 결과에는 s-fetch-page 사용한 후속 쿼리에 대한 위치 정보가 포함됩니다.

최상의 결과를 위한 팁

  • basic 모드로 시작하고 필요한 경우에만 더 높은 보호 수준으로 확대하십시오.
  • 대용량 문서의 경우 s-fetch-page 와 함께 페이지 매김 매개변수를 사용하세요.
  • 큰 페이지에서 특정 정보를 찾을 때 s-fetch-pattern 사용하세요.
  • AI는 사이트의 보호 수준에 따라 접근 방식을 자동으로 조정합니다.

제한 사항

  • 텍스트 콘텐츠 전용으로 설계됨 : 특히 문서, 기사 및 참고 자료용
  • 대량 스크래핑이나 데이터 수집용으로 설계되지 않았습니다.
  • 인증이 필요한 사이트에서는 작동하지 않을 수 있습니다.
  • 성능은 사이트 복잡성에 따라 다릅니다.

특허

아파치 2

-
security - not tested
A
license - permissive license
-
quality - not tested

봇 감지 기능을 구현한 웹사이트의 텍스트 콘텐츠에 AI 어시스턴트가 액세스할 수 있도록 돕는 MCP 서버로, 브라우저에서 볼 수 있는 내용과 AI가 액세스할 수 있는 내용 간의 차이를 메웁니다.

  1. Intended Use
    1. Installation
      1. Setup with Claude
        1. Available Tools
          1. Example Usage
            1. Fetching a Complete Page
            2. Extracting Specific Content with Pattern Matching
          2. Functionality Options
            1. Tips for Best Results
              1. Limitations
                1. License
                  ID: jgm6w7mkc8