Raspador de sitios web
Una herramienta de línea de comandos y un servidor MCP para raspar sitios web y convertir HTML a Markdown.
Características
Extrae contenido significativo de páginas web utilizando la biblioteca Readability de Mozilla (el mismo motor utilizado en la Vista de lectura de Firefox)
Convierte HTML limpio a Markdown de alta calidad con TurndownService
Maneja HTML de forma segura eliminando etiquetas de script potencialmente dañinas
Funciona como una herramienta de línea de comandos y como un servidor MCP
Admite la conversión directa de archivos HTML locales a Markdown
Related MCP server: MCP Server Fetch Python
Instalación
Uso
Modo CLI
Modo de servidor MCP
Esta herramienta se puede utilizar como servidor de Protocolo de Contexto de Modelo (MCP):
Estructura del código
src/index.ts: funcionalidad principal e implementación del servidor MCPsrc/cli.ts- Implementación de la interfaz de línea de comandossrc/data_processing.ts- Funcionalidad de conversión de HTML a Markdown
API
La herramienta exporta las siguientes funciones:
Licencia
ISC