Skip to main content
Glama
tolik-unicornrider

Website Scraper MCP Server

Raspador de sitios web

Una herramienta de línea de comandos y un servidor MCP para raspar sitios web y convertir HTML a Markdown.

Características

  • Extrae contenido significativo de páginas web utilizando la biblioteca Readability de Mozilla (el mismo motor utilizado en la Vista de lectura de Firefox)

  • Convierte HTML limpio a Markdown de alta calidad con TurndownService

  • Maneja HTML de forma segura eliminando etiquetas de script potencialmente dañinas

  • Funciona como una herramienta de línea de comandos y como un servidor MCP

  • Admite la conversión directa de archivos HTML locales a Markdown

Related MCP server: MCP Server Fetch Python

Instalación

# Install dependencies
npm install

# Build the project
npm run build

# Optionally, install globally
npm install -g .

Uso

Modo CLI

# Print output to console
scrape https://example.com

# Save output to a file
scrape https://example.com output.md

# Convert a local HTML file to Markdown
scrape --html-file input.html

# Convert a local HTML file and save output to a file
scrape --html-file input.html output.md

# Show help
scrape --help

# Or run via npm script
npm run start:cli -- https://example.com

Modo de servidor MCP

Esta herramienta se puede utilizar como servidor de Protocolo de Contexto de Modelo (MCP):

# Start in MCP server mode
npm start

Estructura del código

  • src/index.ts : funcionalidad principal e implementación del servidor MCP

  • src/cli.ts - Implementación de la interfaz de línea de comandos

  • src/data_processing.ts - Funcionalidad de conversión de HTML a Markdown

API

La herramienta exporta las siguientes funciones:

// Scrape a website and convert to Markdown
import { scrapeToMarkdown } from './build/index.js';

// Convert HTML string to Markdown directly
import { htmlToMarkdown } from './build/data_processing.js';

async function example() {
  // Web scraping
  const markdown = await scrapeToMarkdown('https://example.com');
  console.log(markdown);
  
  // Direct HTML conversion
  const html = '<h1>Hello World</h1><p>This is <strong>bold</strong> text.</p>';
  const md = htmlToMarkdown(html);
  console.log(md);
}

Licencia

ISC

Install Server
A
security – no known vulnerabilities
F
license - not found
A
quality - confirmed to work

Resources

Looking for Admin?

Admins can modify the Dockerfile, update the server description, and track usage metrics. If you are the server author, to access the admin panel.

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/tolik-unicornrider/mcp_scraper'

If you have feedback or need assistance with the MCP directory API, please join our Discord server