MCP Windows Website Downloader Server

local-only server

The server can only run on the client’s local machine because it depends on local resources.

MCP 웹사이트 다운로더

문서 웹사이트를 다운로드하고 RAG 인덱싱을 준비하기 위한 간단한 MCP 서버입니다.

특징

  • 전체 문서 사이트를 다운로드하세요. 어쨌든 규모가 큰 문서입니다.
  • 링크 구조와 탐색을 유지하는데, 사실은 그렇지 않아요. ㅋㅋ
  • 자산(CSS, JS, 이미지)을 다운로드하고 정리하지만, AI 친화적이지는 않으며 아마도 모두 일종의 파싱이나 DB로 벡터화하는 작업이 필요할 것입니다.
  • RAG 시스템에 대한 깔끔한 인덱스를 만듭니다. 현재는 각 폴더에 인덱스를 만드는 듯하지만, 살펴보지도 않았습니다.
  • 간단한 단일 목적의 MCP 인터페이스, 그렇죠.

설치

포크하고 다운로드한 후 저장소로 cd합니다.

지엑스피1

claude_desktop_config.json에 다음 내용을 자신의 경로와 함께 넣으세요:

"mcp-windows-website-downloader": { "command": "uv", "args": [ "--directory", "F:/GithubRepos/mcp-windows-website-downloader", "run", "mcp-windows-website-downloader", "--library", "F:/GithubRepos/mcp-windows-website-downloader/website_library" ] },

걱정할 필요 없는 다른 사용법은 환각적일 수도 있습니다. ㅋㅋ:

  1. 서버를 시작합니다:
python -m mcp_windows_website_downloader.server --library docs_library
  1. Claude Desktop 또는 다른 MCP 클라이언트를 통해 사용:
result = await server.call_tool("download", { "url": "https://docs.example.com" })

출력 구조

docs_library/ domain_name/ index.html about.html docs/ getting-started.html ... assets/ css/ js/ images/ fonts/ rag_index.json

개발

서버는 표준 MCP 아키텍처를 따릅니다.

src/ mcp_windows_website_downloader/ __init__.py server.py # MCP server implementation core.py # Core downloader functionality utils.py # Helper utilities

구성 요소

  • server.py : 도구 등록 및 요청을 처리하는 주요 MCP 서버 구현
  • core.py : 적절한 자산 처리를 통한 핵심 웹사이트 다운로드 기능
  • utils.py : 파일 처리 및 URL 처리를 위한 도우미 유틸리티

디자인 원칙

  1. 단일 책임
    • 각 모듈에는 명확한 목적이 하나씩 있습니다.
    • 서버는 MCP 인터페이스를 처리합니다.
    • 코어 핸들 다운로드
    • Utils는 일반적인 작업을 처리합니다.
  2. 깨끗한 구조
    • 원래 사이트 구조를 유지합니다
    • 자산을 유형별로 정리합니다
    • RAG 시스템에 대한 명확한 인덱스를 생성합니다.
  3. 강력한 작동
    • 적절한 오류 처리
    • 합리적인 깊이 제한
    • 자산 다운로드 검증
    • 깨끗한 URL/경로 처리

RAG 인덱스

rag_index.json 파일에는 다음이 포함되어 있습니다.

{ "url": "https://docs.example.com", "domain": "docs.example.com", "pages": 42, "path": "/path/to/site" }

기여하다

  1. 저장소를 포크하세요
  2. 기능 브랜치 생성
  3. 변경 사항을 만드세요
  4. 풀 리퀘스트 제출

특허

MIT 라이선스 - LICENSE 파일 참조

오류 처리

서버는 일반적인 문제를 처리합니다.

  • 잘못된 URL
  • 네트워크 오류
  • 자산 다운로드 실패
  • 잘못된 HTML
  • 심층 재귀
  • 파일 시스템 오류

오류 응답은 다음 형식을 따릅니다.

{ "status": "error", "error": "Detailed error message" }

성공 응답:

{ "status": "success", "path": "/path/to/downloaded/site", "pages": 42 }

You must be authenticated.

A
security – no known vulnerabilities
A
license - permissive license
A
quality - confirmed to work

이 서버를 사용하면 사용자가 전체 웹사이트와 자산을 다운로드하여 오프라인에서 액세스할 수 있으며, 구성 가능한 깊이와 동시성 설정을 지원합니다.

  1. Features
    1. Installation
      1. Other Usage you don't need to worry about and may be hallucinatory lol:
        1. Output Structure
          1. Development
            1. Components
            2. Design Principles
            3. RAG Index
          2. Contributing
            1. License
              1. Error Handling
                ID: 5jmjuexe0d