Skip to main content
Glama
by jmh108

MD MCP 웹크롤러 프로젝트

웹사이트 콘텐츠를 추출하고 저장하기 위한 Python 기반 MCP( https://modelcontextprotocol.io/introduction ) 웹 크롤러입니다.

특징

  • 웹사이트 콘텐츠 추출 및 마크다운 파일로 저장

  • 웹사이트 구조 및 링크 지도

  • 여러 URL의 일괄 처리

  • 구성 가능한 출력 디렉토리

설치

  1. 저장소를 복제합니다.

지엑스피1

  1. 종속성 설치:

pip install -r requirements.txt
  1. 선택 사항: 환경 변수 구성:

export OUTPUT_PATH=./output # Set your preferred output directory

산출

크롤링된 콘텐츠는 지정된 출력 디렉토리에 마크다운 형식으로 저장됩니다.

구성

서버는 환경 변수를 통해 구성할 수 있습니다.

  • OUTPUT_PATH : 저장된 파일의 기본 출력 디렉토리

  • MAX_CONCURRENT_REQUESTS : 최대 병렬 요청 수(기본값: 5)

  • REQUEST_TIMEOUT : 요청 시간 초과(초) (기본값: 30)

클로드 셋업

FastMCP fastmcp install server.py 로 설치

또는 fastmcp로 직접 실행하기 위한 사용자 정의 설정

"Crawl Server": { "command": "fastmcp", "args": [ "run", "/Users/mm22/Dev_Projekte/servers-main/src/Webcrawler/server.py" ], "env": { "OUTPUT_PATH": "/Users/user/Webcrawl" }

개발

라이브 개발

fastmcp dev server.py --with-editable .

디버그

디버깅을 위해 https://modelcontextprotocol.io/docs/tools/inspector를 사용하면 도움이 됩니다.

예시

예제 1: 콘텐츠 추출 및 저장

mcp call extract_content --url "https://example.com" --output_path "example.md"

예 2: 콘텐츠 인덱스 만들기

mcp call scan_linked_content --url "https://example.com" | \ mcp call create_index --content_map - --output_path "index.md"

기여하다

  1. 저장소를 포크하세요

  2. 기능 브랜치를 생성합니다( git checkout -b feature/AmazingFeature )

  3. 변경 사항을 커밋합니다( git commit -m 'Add some AmazingFeature' )

  4. 브랜치에 푸시( git push origin feature/AmazingFeature )

  5. 풀 리퀘스트 열기

특허

MIT 라이선스에 따라 배포됩니다. 자세한 내용은 LICENSE 참조하세요.

요구 사항

  • 파이썬 3.7 이상

  • FastMCP(uv pip install fastmcp)

  • requirements.txt에 나열된 종속성

-
security - not tested
A
license - permissive license
-
quality - not tested

Related MCP Servers

  • A
    security
    -
    license
    A
    quality
    A powerful MCP server for fetching and transforming web content into various formats (HTML, JSON, Markdown, Plain Text) with ease.
    Last updated -
    4
    1,017
    37
    MIT License
    • Apple
    • Linux
  • A
    security
    A
    license
    A
    quality
    A TypeScript-based MCP server utilizing the UseScraper API to provide web scraping capabilities, allowing users to extract content from webpages in various formats.
    Last updated -
    4
    MIT License
    • Apple
  • -
    security
    A
    license
    -
    quality
    A Python implementation of an MCP server that extracts webpage content, removes ads and non-essential elements, and transforms it into clean, LLM-optimized Markdown.
    Last updated -
    3
    MIT License
    • Linux
    • Apple
  • -
    security
    A
    license
    -
    quality
    Toolset that crawls websites, generates Markdown documentation, and makes that documentation searchable via a Model Context Protocol (MCP) server for integration with tools like Cursor.
    Last updated -
    29
    MIT License
    • Linux
    • Apple

View all related MCP servers

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/jmh108/md-webcrawl-mcp'

If you have feedback or need assistance with the MCP directory API, please join our Discord server