Skip to main content
Glama

MD Webcrawl MCP

by jmh108

MD MCP 웹크롤러 프로젝트

웹사이트 콘텐츠를 추출하고 저장하기 위한 Python 기반 MCP( https://modelcontextprotocol.io/introduction ) 웹 크롤러입니다.

특징

  • 웹사이트 콘텐츠 추출 및 마크다운 파일로 저장
  • 웹사이트 구조 및 링크 지도
  • 여러 URL의 일괄 처리
  • 구성 가능한 출력 디렉토리

설치

  1. 저장소를 복제합니다.

지엑스피1

  1. 종속성 설치:
pip install -r requirements.txt
  1. 선택 사항: 환경 변수 구성:
export OUTPUT_PATH=./output # Set your preferred output directory

산출

크롤링된 콘텐츠는 지정된 출력 디렉토리에 마크다운 형식으로 저장됩니다.

구성

서버는 환경 변수를 통해 구성할 수 있습니다.

  • OUTPUT_PATH : 저장된 파일의 기본 출력 디렉토리
  • MAX_CONCURRENT_REQUESTS : 최대 병렬 요청 수(기본값: 5)
  • REQUEST_TIMEOUT : 요청 시간 초과(초) (기본값: 30)

클로드 셋업

FastMCP fastmcp install server.py 로 설치

또는 fastmcp로 직접 실행하기 위한 사용자 정의 설정

"Crawl Server": { "command": "fastmcp", "args": [ "run", "/Users/mm22/Dev_Projekte/servers-main/src/Webcrawler/server.py" ], "env": { "OUTPUT_PATH": "/Users/user/Webcrawl" }

개발

라이브 개발

fastmcp dev server.py --with-editable .

디버그

디버깅을 위해 https://modelcontextprotocol.io/docs/tools/inspector를 사용하면 도움이 됩니다.

예시

예제 1: 콘텐츠 추출 및 저장

mcp call extract_content --url "https://example.com" --output_path "example.md"

예 2: 콘텐츠 인덱스 만들기

mcp call scan_linked_content --url "https://example.com" | \ mcp call create_index --content_map - --output_path "index.md"

기여하다

  1. 저장소를 포크하세요
  2. 기능 브랜치를 생성합니다( git checkout -b feature/AmazingFeature )
  3. 변경 사항을 커밋합니다( git commit -m 'Add some AmazingFeature' )
  4. 브랜치에 푸시( git push origin feature/AmazingFeature )
  5. 풀 리퀘스트 열기

특허

MIT 라이선스에 따라 배포됩니다. 자세한 내용은 LICENSE 참조하세요.

요구 사항

  • 파이썬 3.7 이상
  • FastMCP(uv pip install fastmcp)
  • requirements.txt에 나열된 종속성
-
security - not tested
A
license - permissive license
-
quality - not tested

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

웹사이트를 크롤링하여 콘텐츠를 추출하고 마크다운 파일로 저장하는 Python 기반 MCP 서버로, 웹사이트 구조와 링크를 매핑하는 기능이 포함되어 있습니다.

  1. 특징
    1. 설치
      1. 산출
        1. 구성
          1. 클로드 셋업
            1. 개발
              1. 라이브 개발
              2. 디버그
            2. 예시
              1. 예제 1: 콘텐츠 추출 및 저장
              2. 예 2: 콘텐츠 인덱스 만들기
            3. 기여하다
              1. 특허
                1. 요구 사항

                  Related MCP Servers

                  • A
                    security
                    A
                    license
                    A
                    quality
                    A powerful MCP server for fetching and transforming web content into various formats (HTML, JSON, Markdown, Plain Text) with ease.
                    Last updated -
                    4
                    146
                    12
                    TypeScript
                    MIT License
                    • Apple
                    • Linux
                  • A
                    security
                    A
                    license
                    A
                    quality
                    An MCP server that enables users to download webpages as markdown files using r.jina.ai service, with features for configurable download directories and automatic date-stamped filenames.
                    Last updated -
                    5
                    2
                    25
                    JavaScript
                    MIT License
                    • Linux
                    • Apple
                  • -
                    security
                    A
                    license
                    -
                    quality
                    A Python implementation of an MCP server that extracts webpage content, removes ads and non-essential elements, and transforms it into clean, LLM-optimized Markdown.
                    Last updated -
                    1
                    Python
                    MIT License
                    • Linux
                    • Apple
                  • -
                    security
                    F
                    license
                    -
                    quality
                    An MCP server that extracts meaningful content from websites and converts HTML to high-quality Markdown, using Mozilla's Readability engine.
                    Last updated -
                    11,993
                    2
                    JavaScript

                  View all related MCP servers

                  MCP directory API

                  We provide all the information about MCP servers via our MCP API.

                  curl -X GET 'https://glama.ai/api/mcp/v1/servers/jmh108/md-webcrawl-mcp'

                  If you have feedback or need assistance with the MCP directory API, please join our Discord server