Doc Scraper MCP 서버
문서 스크래핑 기능을 제공하는 모델 컨텍스트 프로토콜(MCP) 서버입니다. 이 서버는 jina.ai의 변환 서비스를 사용하여 웹 기반 문서를 마크다운 형식으로 변환합니다.
특징
- 모든 웹 URL에서 문서를 스크랩합니다.
- HTML 문서를 마크다운 형식으로 변환합니다.
- 변환된 문서를 지정된 출력 경로에 저장합니다.
- MCP(모델 컨텍스트 프로토콜)와 통합
설치
Smithery를 통해 설치
Smithery를 통해 Claude Desktop용 Doc Scraper를 자동으로 설치하려면:
지엑스피1
- 저장소를 복제합니다.
git clone https://github.com/askjohngeorge/mcp-doc-scraper.git
cd mcp-doc-scraper
- 가상 환경을 만들고 활성화하세요.
python -m venv venv
source venv/bin/activate # On Windows, use: venv\Scripts\activate
- 종속성을 설치합니다.
용법
서버는 Python을 사용하여 실행할 수 있습니다.
python -m mcp_doc_scraper
도구 설명
서버는 단일 도구를 제공합니다.
- 이름 :
scrape_docs
- 설명 : URL에서 문서를 스크래핑하여 마크다운으로 저장합니다.
- 입력 매개변수 :
url
: 스크래핑할 문서의 URLoutput_path
: 마크다운 파일을 저장할 경로
프로젝트 구조
doc_scraper/
├── __init__.py
├── __main__.py
└── server.py
종속성
개발
개발 환경을 설정하려면:
- 개발 종속성 설치:
pip install -r requirements.txt
- 서버는 MCP(Model Context Protocol)를 사용합니다. MCP 설명서를 숙지하시기 바랍니다.
특허
MIT 라이센스