Raspador de sitios web
Una herramienta de línea de comandos y un servidor MCP para raspar sitios web y convertir HTML a Markdown.
Características
Extrae contenido significativo de páginas web utilizando la biblioteca Readability de Mozilla (el mismo motor utilizado en la Vista de lectura de Firefox)
Convierte HTML limpio a Markdown de alta calidad con TurndownService
Maneja HTML de forma segura eliminando etiquetas de script potencialmente dañinas
Funciona como una herramienta de línea de comandos y como un servidor MCP
Admite la conversión directa de archivos HTML locales a Markdown
Instalación
Uso
Modo CLI
Modo de servidor MCP
Esta herramienta se puede utilizar como servidor de Protocolo de Contexto de Modelo (MCP):
Estructura del código
src/index.ts: funcionalidad principal e implementación del servidor MCPsrc/cli.ts- Implementación de la interfaz de línea de comandossrc/data_processing.ts- Funcionalidad de conversión de HTML a Markdown
API
La herramienta exporta las siguientes funciones:
Licencia
ISC
Related MCP Servers
- Asecurity-licenseAqualityA powerful MCP server for fetching and transforming web content into various formats (HTML, JSON, Markdown, Plain Text) with ease.Last updated -41,01737MIT License
- AsecurityAlicenseAqualityAn MCP server for fetching and transforming web content into various formats.Last updated -47MIT License
- AsecurityAlicenseAqualityMCP server that converts Markdown to high-quality PDF documents using LaTeX, enabling AI agents like Claude to generate professional PDFs without requiring sign-ups or credit cards.Last updated -1347MIT License
- AsecurityFlicenseAqualityAn MCP server that converts Markdown to HTML, supporting both stdio and HTTP interfaces for easy integration with Cursor and other MCP clients.Last updated -13