Raspador de sitios web
Una herramienta de línea de comandos y un servidor MCP para raspar sitios web y convertir HTML a Markdown.
Características
- Extrae contenido significativo de páginas web utilizando la biblioteca Readability de Mozilla (el mismo motor utilizado en la Vista de lectura de Firefox)
- Convierte HTML limpio a Markdown de alta calidad con TurndownService
- Maneja HTML de forma segura eliminando etiquetas de script potencialmente dañinas
- Funciona como una herramienta de línea de comandos y como un servidor MCP
- Admite la conversión directa de archivos HTML locales a Markdown
Instalación
Uso
Modo CLI
Modo de servidor MCP
Esta herramienta se puede utilizar como servidor de Protocolo de Contexto de Modelo (MCP):
Estructura del código
src/index.ts
: funcionalidad principal e implementación del servidor MCPsrc/cli.ts
- Implementación de la interfaz de línea de comandossrc/data_processing.ts
- Funcionalidad de conversión de HTML a Markdown
API
La herramienta exporta las siguientes funciones:
Licencia
ISC
This server cannot be installed
hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
Un servidor MCP que extrae contenido significativo de sitios web y convierte HTML a Markdown de alta calidad, utilizando el motor de legibilidad de Mozilla.
Related MCP Servers
- AsecurityAlicenseAqualityA powerful MCP server for fetching and transforming web content into various formats (HTML, JSON, Markdown, Plain Text) with ease.Last updated -414612TypeScriptMIT License
- AsecurityAlicenseAqualityAn MCP server for fetching and transforming web content into various formats.Last updated -44PythonMIT License
- -securityAlicense-qualityA Python-based MCP server that crawls websites to extract and save content as markdown files, with features for mapping website structure and links.Last updated -1PythonMIT License
- -securityAlicense-qualityA Python implementation of an MCP server that extracts webpage content, removes ads and non-essential elements, and transforms it into clean, LLM-optimized Markdown.Last updated -1PythonMIT License