Raspador de sitios web
Una herramienta de línea de comandos y un servidor MCP para raspar sitios web y convertir HTML a Markdown.
Características
Extrae contenido significativo de páginas web utilizando la biblioteca Readability de Mozilla (el mismo motor utilizado en la Vista de lectura de Firefox)
Convierte HTML limpio a Markdown de alta calidad con TurndownService
Maneja HTML de forma segura eliminando etiquetas de script potencialmente dañinas
Funciona como una herramienta de línea de comandos y como un servidor MCP
Admite la conversión directa de archivos HTML locales a Markdown
Related MCP server: MCP Server Fetch Python
Instalación
# Install dependencies
npm install
# Build the project
npm run build
# Optionally, install globally
npm install -g .Uso
Modo CLI
# Print output to console
scrape https://example.com
# Save output to a file
scrape https://example.com output.md
# Convert a local HTML file to Markdown
scrape --html-file input.html
# Convert a local HTML file and save output to a file
scrape --html-file input.html output.md
# Show help
scrape --help
# Or run via npm script
npm run start:cli -- https://example.comModo de servidor MCP
Esta herramienta se puede utilizar como servidor de Protocolo de Contexto de Modelo (MCP):
# Start in MCP server mode
npm startEstructura del código
src/index.ts: funcionalidad principal e implementación del servidor MCPsrc/cli.ts- Implementación de la interfaz de línea de comandossrc/data_processing.ts- Funcionalidad de conversión de HTML a Markdown
API
La herramienta exporta las siguientes funciones:
// Scrape a website and convert to Markdown
import { scrapeToMarkdown } from './build/index.js';
// Convert HTML string to Markdown directly
import { htmlToMarkdown } from './build/data_processing.js';
async function example() {
// Web scraping
const markdown = await scrapeToMarkdown('https://example.com');
console.log(markdown);
// Direct HTML conversion
const html = '<h1>Hello World</h1><p>This is <strong>bold</strong> text.</p>';
const md = htmlToMarkdown(html);
console.log(md);
}Licencia
ISC
Resources
Looking for Admin?
Admins can modify the Dockerfile, update the server description, and track usage metrics. If you are the server author, to access the admin panel.