Website Scraper MCP Server

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

Integrations

  • Utilizes Mozilla's Readability library (the same engine used in Firefox's Reader View) to extract meaningful content from web pages for conversion to Markdown

  • Converts clean HTML to high-quality Markdown with TurndownService, supporting both web scraping and direct conversion of local HTML files

  • Leverages Mozilla's Readability library to extract the main content from web pages while removing clutter and navigation elements

Raspador de sitios web

Una herramienta de línea de comandos y un servidor MCP para raspar sitios web y convertir HTML a Markdown.

Características

  • Extrae contenido significativo de páginas web utilizando la biblioteca Readability de Mozilla (el mismo motor utilizado en la Vista de lectura de Firefox)
  • Convierte HTML limpio a Markdown de alta calidad con TurndownService
  • Maneja HTML de forma segura eliminando etiquetas de script potencialmente dañinas
  • Funciona como una herramienta de línea de comandos y como un servidor MCP
  • Admite la conversión directa de archivos HTML locales a Markdown

Instalación

# Install dependencies npm install # Build the project npm run build # Optionally, install globally npm install -g .

Uso

Modo CLI

# Print output to console scrape https://example.com # Save output to a file scrape https://example.com output.md # Convert a local HTML file to Markdown scrape --html-file input.html # Convert a local HTML file and save output to a file scrape --html-file input.html output.md # Show help scrape --help # Or run via npm script npm run start:cli -- https://example.com

Modo de servidor MCP

Esta herramienta se puede utilizar como servidor de Protocolo de Contexto de Modelo (MCP):

# Start in MCP server mode npm start

Estructura del código

  • src/index.ts : funcionalidad principal e implementación del servidor MCP
  • src/cli.ts - Implementación de la interfaz de línea de comandos
  • src/data_processing.ts - Funcionalidad de conversión de HTML a Markdown

API

La herramienta exporta las siguientes funciones:

// Scrape a website and convert to Markdown import { scrapeToMarkdown } from './build/index.js'; // Convert HTML string to Markdown directly import { htmlToMarkdown } from './build/data_processing.js'; async function example() { // Web scraping const markdown = await scrapeToMarkdown('https://example.com'); console.log(markdown); // Direct HTML conversion const html = '<h1>Hello World</h1><p>This is <strong>bold</strong> text.</p>'; const md = htmlToMarkdown(html); console.log(md); }

Licencia

ISC

-
security - not tested
F
license - not found
-
quality - not tested

Un servidor MCP que extrae contenido significativo de sitios web y convierte HTML a Markdown de alta calidad, utilizando el motor de legibilidad de Mozilla.

  1. Features
    1. Installation
      1. Usage
        1. CLI Mode
        2. MCP Server Mode
      2. Code Structure
        1. API
          1. License
            ID: 1o02okzu2w