스크래플링 페치 MCP
봇 감지 기능을 구현한 웹사이트의 텍스트 콘텐츠에 AI 어시스턴트가 액세스할 수 있도록 돕는 MCP 서버로, 브라우저에서 볼 수 있는 내용과 AI가 액세스할 수 있는 내용 간의 차이를 메웁니다.
의도된 사용
이 도구는 봇 탐지 기능을 구현한 웹사이트에서 소량의 문서 및 참고 자료(텍스트/HTML 형식만 해당)를 검색하는 데 최적화되어 있습니다. 일반적인 사이트 스크래핑이나 데이터 수집용으로 설계되거나 테스트되지 않았습니다.
참고 : 이 프로젝트는 LLM Context를 사용하여 Claude Sonnet 3.7과 협업하여 개발되었습니다.
Related MCP server: browser-use MCP Server
설치
요구 사항:
파이썬 3.10+
uv 패키지 관리자
종속성과 도구를 설치합니다.
지엑스피1
Claude와 함께 설정
Claude 클라이언트의 MCP 서버 구성에 다음 구성을 추가합니다.
사용 가능한 도구
이 패키지는 두 가지의 고유한 도구를 제공합니다.
s-fetch-page : 페이지네이션 지원으로 전체 웹 페이지를 검색합니다.
s-fetch-pattern : 주변 컨텍스트와 일치하는 정규식 패턴을 추출합니다.
사용 예
전체 페이지 가져오기
패턴 매칭을 통한 특정 콘텐츠 추출
기능 옵션
보호 수준 :
basic: 빠른 검색(1~2초)이 가능하지만, 보호가 철저한 사이트에서는 성공률이 낮음stealth: 대부분의 사이트에서 작동하는 균형 잡힌 보호(3~8초)max-stealth: 엄격하게 보호되는 사이트에 대한 최대 보호(10초 이상)
콘텐츠 타겟팅 옵션 :
s-fetch-page : 페이지 매김 지원(
start_index및max_length사용)을 통해 전체 페이지를 검색합니다.s-fetch-pattern : 정규 표현식(
search_pattern및context_chars포함)을 사용하여 특정 콘텐츠 추출결과에는
s-fetch-page사용한 후속 쿼리에 대한 위치 정보가 포함됩니다.
최상의 결과를 위한 팁
basic모드로 시작하고 필요한 경우에만 더 높은 보호 수준으로 확대하십시오.대용량 문서의 경우
s-fetch-page와 함께 페이지 매김 매개변수를 사용하세요.큰 페이지에서 특정 정보를 찾을 때
s-fetch-pattern사용하세요.AI는 사이트의 보호 수준에 따라 접근 방식을 자동으로 조정합니다.
제한 사항
텍스트 콘텐츠 전용으로 설계됨 : 특히 문서, 기사 및 참고 자료용
대량 스크래핑이나 데이터 수집용으로 설계되지 않았습니다.
인증이 필요한 사이트에서는 작동하지 않을 수 있습니다.
성능은 사이트 복잡성에 따라 다릅니다.
특허
아파치 2