🔍 Prysm MCP 서버
Prysm MCP(Model Context Protocol) 서버는 Claude와 다른 AI 도우미가 높은 정확도와 유연성을 갖추고 웹 콘텐츠를 스크래핑할 수 있도록 해줍니다.
✨ 특징
- 🎯 다중 스크래핑 모드 : 집중(속도), 균형(기본), 심층(철저) 모드 중에서 선택하세요
- 🧠 콘텐츠 분석 : URL을 분석하여 최상의 스크래핑 접근 방식을 결정합니다.
- 📄 형식 유연성 : 결과를 마크다운, HTML 또는 JSON으로 형식화합니다.
- 🖼️ 이미지 지원 : 선택적으로 이미지를 추출하고 다운로드할 수 있습니다.
- 🔍 스마트 스크롤링 : 단일 페이지 애플리케이션에 대한 스크롤 동작 구성
- 📱 반응형 : 다양한 웹사이트 레이아웃과 구조에 적응합니다.
- 💾 파일 출력 : 원하는 디렉토리에 서식이 지정된 결과를 저장합니다.
🚀 빠른 시작
설치
지엑스피1
통합 가이드
우리는 인기 있는 MCP 호환 애플리케이션에 대한 자세한 통합 가이드를 제공합니다:
용법
Prysm MCP 서버를 설정하는 방법은 여러 가지가 있습니다.
mcp.json 구성 사용
위의 가이드에 따라 적절한 위치에 mcp.json
파일을 만듭니다.
🛠️ 도구
서버는 다음과 같은 도구를 제공합니다.
scrapeFocused
속도에 최적화된 빠른 웹 스크래핑(스크롤 감소, 주요 콘텐츠만 제공).
사용 가능한 매개변수:
url
(필수): 스크래핑할 URLmaxScrolls
(선택 사항): 스크롤 시도의 최대 횟수(기본값: 5)scrollDelay
(선택 사항): 스크롤 간 지연 시간(ms)(기본값: 1000)scrapeImages
(선택 사항): 결과에 이미지를 포함할지 여부downloadImages
(선택 사항): 이미지를 로컬로 다운로드할지 여부maxImages
(선택 사항): 추출할 최대 이미지 수output
(선택 사항): 다운로드한 이미지의 출력 디렉토리
scrapeBalanced
적절한 속도와 좋은 커버리지를 갖춘 균형 잡힌 웹 스크래핑 방식입니다.
사용 가능한 매개변수:
scrapeFocused
와 동일하며 다른 기본값을 사용합니다.maxScrolls
기본값: 10scrollDelay
기본값: 2000- 총 스크래핑 시간을 제한하기 위해
timeout
매개변수를 추가합니다(기본값: 30000ms)
scrapeDeep
최대 추출 웹 스크래핑(느리지만 철저함).
사용 가능한 매개변수:
scrapeFocused
와 동일하며 다른 기본값을 사용합니다.maxScrolls
기본값: 20scrollDelay
기본값: 3000maxImages
기본값: 100
formatResult
스크래핑한 데이터를 다양한 구조화된 형식(마크다운, HTML, JSON)으로 포맷합니다.
사용 가능한 매개변수:
data
(필수): 포맷할 스크래핑된 데이터format
(필수): 출력 형식 - "markdown", "html" 또는 "json"includeImages
(선택 사항): 출력에 이미지를 포함할지 여부(기본값: true)output
(선택 사항): 포맷된 결과를 저장할 파일 경로
출력 경로를 지정하여 서식이 지정된 결과를 파일에 저장할 수도 있습니다.
⚙️ 구성
출력 디렉토리
기본적으로 서식이 적용된 결과를 저장할 때 파일은 ~/prysm-mcp/output/
에 저장됩니다. 다음 두 가지 방법으로 이 설정을 사용자 지정할 수 있습니다.
- 환경 변수 : 원하는 디렉토리에 환경 변수를 설정합니다.
- 도구 매개변수 : 도구를 호출할 때 출력 경로를 직접 지정합니다.
- MCP 구성 : MCP 구성 파일(예:
.cursor/mcp.json
)에서 다음 환경 변수를 설정할 수 있습니다.
PRYSM_IMAGE_OUTPUT_DIR
지정되지 않으면 PRYSM_OUTPUT_DIR
내부의 images
라는 하위 폴더로 기본 설정됩니다.
상대 경로나 파일 이름만 제공하는 경우 구성된 출력 디렉토리를 기준으로 저장됩니다.
경로 처리 규칙
formatResult
도구는 다음과 같은 방법으로 경로를 처리합니다.
- 절대 경로 : 제공된 대로 정확하게 사용됨(
/home/user/file.md
) - 상대 경로 : 구성된 출력 디렉토리(
subfolder/file.md
)를 기준으로 저장됩니다. - 파일 이름만 : 구성된 출력 디렉토리(
output.md
)에 저장됨 - 디렉토리 경로 : 경로가 디렉토리를 가리키는 경우 콘텐츠와 타임스탬프를 기반으로 파일 이름이 자동 생성됩니다.
🏗️ 개발
npx를 통해 실행
npx를 설치하지 않고도 서버를 직접 실행할 수 있습니다.
📋 라이센스
MIT
🙏 크레딧
핑크픽셀 에서 개발
모델 컨텍스트 프로토콜 및 Puppeteer 기반
Related MCP Servers
- AsecurityAlicenseAqualityA production-ready Model Context Protocol server that enables language models to leverage AI-powered web scraping capabilities, offering tools for transforming webpages to markdown, extracting structured data, and executing AI-powered web searches.Last updated -316PythonMIT License
- -securityAlicense-qualityA Model Context Protocol server that allows LLMs to interact with web content through standardized tools, currently supporting web scraping functionality.Last updated -PythonMIT License
- -securityAlicense-qualityA Model Context Protocol server that enables AI assistants to perform advanced web scraping, crawling, searching, and data extraction through the Firecrawl API.Last updated -7,117MIT License
- AsecurityFlicenseAqualityA Model Context Protocol server that enables AI assistants to perform real-time web searches, retrieving up-to-date information from the internet via a Crawler API.Last updated -1448JavaScript
Appeared in Searches
- Techniques for Scraping Dynamic Websites with JavaScript and Handling CAPTCHA or Proxy Issues
- Scraping a marketplace to generate a JSON file with name, description, and link
- Search Engine Optimization (SEO) Resources
- Using tools to analyze a customer's website for technical stack, traffic, and search queries
- Accessing a webcheck server to retrieve JSON data for website analysis