Skip to main content
Glama

Website Scraper MCP Server

웹사이트 스크래퍼

웹사이트를 스크래핑하고 HTML을 마크다운으로 변환하는 명령줄 도구이자 MCP 서버입니다.

특징

  • Mozilla의 Readability 라이브러리(Firefox의 Reader View에서 사용되는 것과 동일한 엔진)를 사용하여 웹 페이지에서 의미 있는 콘텐츠를 추출합니다.
  • TurndownService를 사용하여 깨끗한 HTML을 고품질 Markdown으로 변환합니다.
  • 잠재적으로 유해한 스크립트 태그를 제거하여 HTML을 안전하게 처리합니다.
  • 명령줄 도구와 MCP 서버로 모두 작동합니다.
  • 로컬 HTML 파일을 Markdown으로 직접 변환하는 기능을 지원합니다.

설치

지엑스피1

용법

CLI 모드

# Print output to console scrape https://example.com # Save output to a file scrape https://example.com output.md # Convert a local HTML file to Markdown scrape --html-file input.html # Convert a local HTML file and save output to a file scrape --html-file input.html output.md # Show help scrape --help # Or run via npm script npm run start:cli -- https://example.com

MCP 서버 모드

이 도구는 MCP(Model Context Protocol) 서버로 사용할 수 있습니다.

# Start in MCP server mode npm start

코드 구조

  • src/index.ts - 핵심 기능 및 MCP 서버 구현
  • src/cli.ts - 명령줄 인터페이스 구현
  • src/data_processing.ts - HTML을 마크다운으로 변환하는 기능

API

이 도구는 다음 기능을 내보냅니다.

// Scrape a website and convert to Markdown import { scrapeToMarkdown } from './build/index.js'; // Convert HTML string to Markdown directly import { htmlToMarkdown } from './build/data_processing.js'; async function example() { // Web scraping const markdown = await scrapeToMarkdown('https://example.com'); console.log(markdown); // Direct HTML conversion const html = '<h1>Hello World</h1><p>This is <strong>bold</strong> text.</p>'; const md = htmlToMarkdown(html); console.log(md); }

특허

아이에스씨

-
security - not tested
F
license - not found
-
quality - not tested

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

Mozilla의 Readability 엔진을 사용하여 웹사이트에서 의미 있는 콘텐츠를 추출하고 HTML을 고품질 마크다운으로 변환하는 MCP 서버입니다.

  1. 특징
    1. 설치
      1. 용법
        1. CLI 모드
        2. MCP 서버 모드
      2. 코드 구조
        1. API
          1. 특허

            Related MCP Servers

            • A
              security
              A
              license
              A
              quality
              A powerful MCP server for fetching and transforming web content into various formats (HTML, JSON, Markdown, Plain Text) with ease.
              Last updated -
              4
              146
              12
              TypeScript
              MIT License
              • Apple
              • Linux
            • A
              security
              A
              license
              A
              quality
              An MCP server for fetching and transforming web content into various formats.
              Last updated -
              4
              4
              Python
              MIT License
              • Apple
            • -
              security
              A
              license
              -
              quality
              A Python-based MCP server that crawls websites to extract and save content as markdown files, with features for mapping website structure and links.
              Last updated -
              1
              Python
              MIT License
            • -
              security
              A
              license
              -
              quality
              A Python implementation of an MCP server that extracts webpage content, removes ads and non-essential elements, and transforms it into clean, LLM-optimized Markdown.
              Last updated -
              1
              Python
              MIT License
              • Linux
              • Apple

            View all related MCP servers

            MCP directory API

            We provide all the information about MCP servers via our MCP API.

            curl -X GET 'https://glama.ai/api/mcp/v1/servers/tolik-unicornrider/mcp_scraper'

            If you have feedback or need assistance with the MCP directory API, please join our Discord server