Website Scraper MCP Server
Raspador de sitios web
Una herramienta de línea de comandos y un servidor MCP para raspar sitios web y convertir HTML a Markdown.
Características
Extrae contenido significativo de páginas web utilizando la biblioteca Readability de Mozilla (el mismo motor utilizado en la Vista de lectura de Firefox)
Convierte HTML limpio a Markdown de alta calidad con TurndownService
Maneja HTML de forma segura eliminando etiquetas de script potencialmente dañinas
Funciona como una herramienta de línea de comandos y como un servidor MCP
Admite la conversión directa de archivos HTML locales a Markdown
Related MCP server: MCP Server Fetch Python
Instalación
# Install dependencies
npm install
# Build the project
npm run build
# Optionally, install globally
npm install -g .Uso
Modo CLI
# Print output to console
scrape https://example.com
# Save output to a file
scrape https://example.com output.md
# Convert a local HTML file to Markdown
scrape --html-file input.html
# Convert a local HTML file and save output to a file
scrape --html-file input.html output.md
# Show help
scrape --help
# Or run via npm script
npm run start:cli -- https://example.comModo de servidor MCP
Esta herramienta se puede utilizar como servidor de Protocolo de Contexto de Modelo (MCP):
# Start in MCP server mode
npm startEstructura del código
src/index.ts: funcionalidad principal e implementación del servidor MCPsrc/cli.ts- Implementación de la interfaz de línea de comandossrc/data_processing.ts- Funcionalidad de conversión de HTML a Markdown
API
La herramienta exporta las siguientes funciones:
// Scrape a website and convert to Markdown
import { scrapeToMarkdown } from './build/index.js';
// Convert HTML string to Markdown directly
import { htmlToMarkdown } from './build/data_processing.js';
async function example() {
// Web scraping
const markdown = await scrapeToMarkdown('https://example.com');
console.log(markdown);
// Direct HTML conversion
const html = '<h1>Hello World</h1><p>This is <strong>bold</strong> text.</p>';
const md = htmlToMarkdown(html);
console.log(md);
}Licencia
ISC
Resources
Unclaimed servers have limited discoverability.
Looking for Admin?
If you are the server author, to access and configure the admin panel.
Tools
Latest Blog Posts
MCP directory API
We provide all the information about MCP servers via our MCP API.
curl -X GET 'https://glama.ai/api/mcp/v1/servers/tolik-unicornrider/mcp_scraper'
If you have feedback or need assistance with the MCP directory API, please join our Discord server