Skip to main content
Glama

Website Scraper MCP Server

Raspador de sitios web

Una herramienta de línea de comandos y un servidor MCP para raspar sitios web y convertir HTML a Markdown.

Características

  • Extrae contenido significativo de páginas web utilizando la biblioteca Readability de Mozilla (el mismo motor utilizado en la Vista de lectura de Firefox)

  • Convierte HTML limpio a Markdown de alta calidad con TurndownService

  • Maneja HTML de forma segura eliminando etiquetas de script potencialmente dañinas

  • Funciona como una herramienta de línea de comandos y como un servidor MCP

  • Admite la conversión directa de archivos HTML locales a Markdown

Instalación

# Install dependencies npm install # Build the project npm run build # Optionally, install globally npm install -g .

Uso

Modo CLI

# Print output to console scrape https://example.com # Save output to a file scrape https://example.com output.md # Convert a local HTML file to Markdown scrape --html-file input.html # Convert a local HTML file and save output to a file scrape --html-file input.html output.md # Show help scrape --help # Or run via npm script npm run start:cli -- https://example.com

Modo de servidor MCP

Esta herramienta se puede utilizar como servidor de Protocolo de Contexto de Modelo (MCP):

# Start in MCP server mode npm start

Estructura del código

  • src/index.ts : funcionalidad principal e implementación del servidor MCP

  • src/cli.ts - Implementación de la interfaz de línea de comandos

  • src/data_processing.ts - Funcionalidad de conversión de HTML a Markdown

API

La herramienta exporta las siguientes funciones:

// Scrape a website and convert to Markdown import { scrapeToMarkdown } from './build/index.js'; // Convert HTML string to Markdown directly import { htmlToMarkdown } from './build/data_processing.js'; async function example() { // Web scraping const markdown = await scrapeToMarkdown('https://example.com'); console.log(markdown); // Direct HTML conversion const html = '<h1>Hello World</h1><p>This is <strong>bold</strong> text.</p>'; const md = htmlToMarkdown(html); console.log(md); }

Licencia

ISC

Deploy Server
A
security – no known vulnerabilities
F
license - not found
A
quality - confirmed to work

Related MCP Servers

  • A
    security
    -
    license
    A
    quality
    A powerful MCP server for fetching and transforming web content into various formats (HTML, JSON, Markdown, Plain Text) with ease.
    Last updated -
    4
    1,017
    37
    MIT License
    • Apple
    • Linux
  • A
    security
    A
    license
    A
    quality
    An MCP server for fetching and transforming web content into various formats.
    Last updated -
    4
    7
    MIT License
    • Apple
  • A
    security
    A
    license
    A
    quality
    MCP server that converts Markdown to high-quality PDF documents using LaTeX, enabling AI agents like Claude to generate professional PDFs without requiring sign-ups or credit cards.
    Last updated -
    1
    34
    7
    MIT License
  • A
    security
    F
    license
    A
    quality
    An MCP server that converts Markdown to HTML, supporting both stdio and HTTP interfaces for easy integration with Cursor and other MCP clients.
    Last updated -
    1
    3

View all related MCP servers

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/tolik-unicornrider/mcp_scraper'

If you have feedback or need assistance with the MCP directory API, please join our Discord server