Skip to main content
Glama

Website Scraper MCP Server

ウェブサイトスクレーパー

ウェブサイトをスクレイピングし、HTML を Markdown に変換するためのコマンドライン ツールと MCP サーバー。

特徴

  • Mozilla のReadabilityライブラリ (Firefox のリーダー ビューで使用されているのと同じエンジン) を使用して、Web ページから意味のあるコンテンツを抽出します。
  • TurndownService を使用して、クリーンな HTML を高品質の Markdown に変換します。
  • 潜在的に有害なスクリプトタグを削除してHTMLを安全に処理します
  • コマンドラインツールとMCPサーバーの両方として機能します
  • ローカル HTML ファイルを Markdown に直接変換できます

インストール

# Install dependencies npm install # Build the project npm run build # Optionally, install globally npm install -g .

使用法

CLIモード

# Print output to console scrape https://example.com # Save output to a file scrape https://example.com output.md # Convert a local HTML file to Markdown scrape --html-file input.html # Convert a local HTML file and save output to a file scrape --html-file input.html output.md # Show help scrape --help # Or run via npm script npm run start:cli -- https://example.com

MCP サーバーモード

このツールは、モデル コンテキスト プロトコル (MCP) サーバーとして使用できます。

# Start in MCP server mode npm start

コード構造

  • src/index.ts - コア機能とMCPサーバーの実装
  • src/cli.ts - コマンドラインインターフェースの実装
  • src/data_processing.ts - HTML から Markdown への変換機能

API

このツールは次の機能をエクスポートします。

// Scrape a website and convert to Markdown import { scrapeToMarkdown } from './build/index.js'; // Convert HTML string to Markdown directly import { htmlToMarkdown } from './build/data_processing.js'; async function example() { // Web scraping const markdown = await scrapeToMarkdown('https://example.com'); console.log(markdown); // Direct HTML conversion const html = '<h1>Hello World</h1><p>This is <strong>bold</strong> text.</p>'; const md = htmlToMarkdown(html); console.log(md); }

ライセンス

ISC

-
security - not tested
F
license - not found
-
quality - not tested

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

Mozilla の Readability エンジンを使用して、Web サイトから意味のあるコンテンツを抽出し、HTML を高品質の Markdown に変換する MCP サーバー。

  1. 特徴
    1. インストール
      1. 使用法
        1. CLIモード
        2. MCP サーバーモード
      2. コード構造
        1. API
          1. ライセンス

            Related MCP Servers

            • A
              security
              A
              license
              A
              quality
              A powerful MCP server for fetching and transforming web content into various formats (HTML, JSON, Markdown, Plain Text) with ease.
              Last updated -
              4
              146
              12
              TypeScript
              MIT License
              • Apple
              • Linux
            • A
              security
              A
              license
              A
              quality
              An MCP server for fetching and transforming web content into various formats.
              Last updated -
              4
              4
              Python
              MIT License
              • Apple
            • -
              security
              A
              license
              -
              quality
              A Python-based MCP server that crawls websites to extract and save content as markdown files, with features for mapping website structure and links.
              Last updated -
              1
              Python
              MIT License
            • -
              security
              A
              license
              -
              quality
              A Python implementation of an MCP server that extracts webpage content, removes ads and non-essential elements, and transforms it into clean, LLM-optimized Markdown.
              Last updated -
              1
              Python
              MIT License
              • Linux
              • Apple

            View all related MCP servers

            MCP directory API

            We provide all the information about MCP servers via our MCP API.

            curl -X GET 'https://glama.ai/api/mcp/v1/servers/tolik-unicornrider/mcp_scraper'

            If you have feedback or need assistance with the MCP directory API, please join our Discord server