hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
Integrations
Utilizes Mozilla's Readability library (the same engine used in Firefox's Reader View) to extract meaningful content from web pages for conversion to Markdown
Converts clean HTML to high-quality Markdown with TurndownService, supporting both web scraping and direct conversion of local HTML files
Leverages Mozilla's Readability library to extract the main content from web pages while removing clutter and navigation elements
Raspador de sitios web
Una herramienta de línea de comandos y un servidor MCP para raspar sitios web y convertir HTML a Markdown.
Características
- Extrae contenido significativo de páginas web utilizando la biblioteca Readability de Mozilla (el mismo motor utilizado en la Vista de lectura de Firefox)
- Convierte HTML limpio a Markdown de alta calidad con TurndownService
- Maneja HTML de forma segura eliminando etiquetas de script potencialmente dañinas
- Funciona como una herramienta de línea de comandos y como un servidor MCP
- Admite la conversión directa de archivos HTML locales a Markdown
Instalación
Uso
Modo CLI
Modo de servidor MCP
Esta herramienta se puede utilizar como servidor de Protocolo de Contexto de Modelo (MCP):
Estructura del código
src/index.ts
: funcionalidad principal e implementación del servidor MCPsrc/cli.ts
- Implementación de la interfaz de línea de comandossrc/data_processing.ts
- Funcionalidad de conversión de HTML a Markdown
API
La herramienta exporta las siguientes funciones:
Licencia
ISC
This server cannot be installed
Un servidor MCP que extrae contenido significativo de sitios web y convierte HTML a Markdown de alta calidad, utilizando el motor de legibilidad de Mozilla.