Raspador de sitios web
Una herramienta de línea de comandos y un servidor MCP para raspar sitios web y convertir HTML a Markdown.
Características
Extrae contenido significativo de páginas web utilizando la biblioteca Readability de Mozilla (el mismo motor utilizado en la Vista de lectura de Firefox)
Convierte HTML limpio a Markdown de alta calidad con TurndownService
Maneja HTML de forma segura eliminando etiquetas de script potencialmente dañinas
Funciona como una herramienta de línea de comandos y como un servidor MCP
Admite la conversión directa de archivos HTML locales a Markdown
Instalación
Uso
Modo CLI
Modo de servidor MCP
Esta herramienta se puede utilizar como servidor de Protocolo de Contexto de Modelo (MCP):
Estructura del código
src/index.ts: funcionalidad principal e implementación del servidor MCPsrc/cli.ts- Implementación de la interfaz de línea de comandossrc/data_processing.ts- Funcionalidad de conversión de HTML a Markdown
API
La herramienta exporta las siguientes funciones:
Licencia
ISC
hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
Tools
Un servidor MCP que extrae contenido significativo de sitios web y convierte HTML a Markdown de alta calidad, utilizando el motor de legibilidad de Mozilla.
Related MCP Servers
- Asecurity-licenseAqualityA powerful MCP server for fetching and transforming web content into various formats (HTML, JSON, Markdown, Plain Text) with ease.Last updated -41,01737MIT License
- Asecurity-licenseAqualityAn MCP server for fetching and transforming web content into various formats.Last updated -47MIT License
- Asecurity-licenseAqualityMCP server that converts Markdown to high-quality PDF documents using LaTeX, enabling AI agents like Claude to generate professional PDFs without requiring sign-ups or credit cards.Last updated -1247MIT License
- Asecurity-licenseAqualityAn MCP server that converts Markdown to HTML, supporting both stdio and HTTP interfaces for easy integration with Cursor and other MCP clients.Last updated -14