Skip to main content
Glama

Website Scraper MCP Server

Raspador de sitios web

Una herramienta de línea de comandos y un servidor MCP para raspar sitios web y convertir HTML a Markdown.

Características

  • Extrae contenido significativo de páginas web utilizando la biblioteca Readability de Mozilla (el mismo motor utilizado en la Vista de lectura de Firefox)
  • Convierte HTML limpio a Markdown de alta calidad con TurndownService
  • Maneja HTML de forma segura eliminando etiquetas de script potencialmente dañinas
  • Funciona como una herramienta de línea de comandos y como un servidor MCP
  • Admite la conversión directa de archivos HTML locales a Markdown

Instalación

# Install dependencies npm install # Build the project npm run build # Optionally, install globally npm install -g .

Uso

Modo CLI

# Print output to console scrape https://example.com # Save output to a file scrape https://example.com output.md # Convert a local HTML file to Markdown scrape --html-file input.html # Convert a local HTML file and save output to a file scrape --html-file input.html output.md # Show help scrape --help # Or run via npm script npm run start:cli -- https://example.com

Modo de servidor MCP

Esta herramienta se puede utilizar como servidor de Protocolo de Contexto de Modelo (MCP):

# Start in MCP server mode npm start

Estructura del código

  • src/index.ts : funcionalidad principal e implementación del servidor MCP
  • src/cli.ts - Implementación de la interfaz de línea de comandos
  • src/data_processing.ts - Funcionalidad de conversión de HTML a Markdown

API

La herramienta exporta las siguientes funciones:

// Scrape a website and convert to Markdown import { scrapeToMarkdown } from './build/index.js'; // Convert HTML string to Markdown directly import { htmlToMarkdown } from './build/data_processing.js'; async function example() { // Web scraping const markdown = await scrapeToMarkdown('https://example.com'); console.log(markdown); // Direct HTML conversion const html = '<h1>Hello World</h1><p>This is <strong>bold</strong> text.</p>'; const md = htmlToMarkdown(html); console.log(md); }

Licencia

ISC

-
security - not tested
F
license - not found
-
quality - not tested

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

Un servidor MCP que extrae contenido significativo de sitios web y convierte HTML a Markdown de alta calidad, utilizando el motor de legibilidad de Mozilla.

  1. Características
    1. Instalación
      1. Uso
        1. Modo CLI
        2. Modo de servidor MCP
      2. Estructura del código
        1. API
          1. Licencia

            Related MCP Servers

            • A
              security
              A
              license
              A
              quality
              A powerful MCP server for fetching and transforming web content into various formats (HTML, JSON, Markdown, Plain Text) with ease.
              Last updated -
              4
              146
              12
              TypeScript
              MIT License
              • Apple
              • Linux
            • A
              security
              A
              license
              A
              quality
              An MCP server for fetching and transforming web content into various formats.
              Last updated -
              4
              4
              Python
              MIT License
              • Apple
            • -
              security
              A
              license
              -
              quality
              A Python-based MCP server that crawls websites to extract and save content as markdown files, with features for mapping website structure and links.
              Last updated -
              1
              Python
              MIT License
            • -
              security
              A
              license
              -
              quality
              A Python implementation of an MCP server that extracts webpage content, removes ads and non-essential elements, and transforms it into clean, LLM-optimized Markdown.
              Last updated -
              1
              Python
              MIT License
              • Linux
              • Apple

            View all related MCP servers

            MCP directory API

            We provide all the information about MCP servers via our MCP API.

            curl -X GET 'https://glama.ai/api/mcp/v1/servers/tolik-unicornrider/mcp_scraper'

            If you have feedback or need assistance with the MCP directory API, please join our Discord server