MD MCP 웹크롤러 프로젝트
웹사이트 콘텐츠를 추출하고 저장하기 위한 Python 기반 MCP( https://modelcontextprotocol.io/introduction ) 웹 크롤러입니다.
특징
웹사이트 콘텐츠 추출 및 마크다운 파일로 저장
웹사이트 구조 및 링크 지도
여러 URL의 일괄 처리
구성 가능한 출력 디렉토리
설치
저장소를 복제합니다.
지엑스피1
종속성 설치:
선택 사항: 환경 변수 구성:
산출
크롤링된 콘텐츠는 지정된 출력 디렉토리에 마크다운 형식으로 저장됩니다.
구성
서버는 환경 변수를 통해 구성할 수 있습니다.
OUTPUT_PATH: 저장된 파일의 기본 출력 디렉토리MAX_CONCURRENT_REQUESTS: 최대 병렬 요청 수(기본값: 5)REQUEST_TIMEOUT: 요청 시간 초과(초) (기본값: 30)
클로드 셋업
FastMCP fastmcp install server.py 로 설치
또는 fastmcp로 직접 실행하기 위한 사용자 정의 설정
개발
라이브 개발
디버그
디버깅을 위해 https://modelcontextprotocol.io/docs/tools/inspector를 사용하면 도움이 됩니다.
예시
예제 1: 콘텐츠 추출 및 저장
예 2: 콘텐츠 인덱스 만들기
기여하다
저장소를 포크하세요
기능 브랜치를 생성합니다(
git checkout -b feature/AmazingFeature)변경 사항을 커밋합니다(
git commit -m 'Add some AmazingFeature')브랜치에 푸시(
git push origin feature/AmazingFeature)풀 리퀘스트 열기
특허
MIT 라이선스에 따라 배포됩니다. 자세한 내용은 LICENSE 참조하세요.
요구 사항
파이썬 3.7 이상
FastMCP(uv pip install fastmcp)
requirements.txt에 나열된 종속성
Related MCP Servers
- Asecurity-licenseAqualityA powerful MCP server for fetching and transforming web content into various formats (HTML, JSON, Markdown, Plain Text) with ease.Last updated -41,01737MIT License
- AsecurityAlicenseAqualityA TypeScript-based MCP server utilizing the UseScraper API to provide web scraping capabilities, allowing users to extract content from webpages in various formats.Last updated -4MIT License
- -securityAlicense-qualityA Python implementation of an MCP server that extracts webpage content, removes ads and non-essential elements, and transforms it into clean, LLM-optimized Markdown.Last updated -3MIT License
- -securityAlicense-qualityToolset that crawls websites, generates Markdown documentation, and makes that documentation searchable via a Model Context Protocol (MCP) server for integration with tools like Cursor.Last updated -29MIT License