hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
Integrations
Utilizes Mozilla's Readability library (the same engine used in Firefox's Reader View) to extract meaningful content from web pages for conversion to Markdown
Converts clean HTML to high-quality Markdown with TurndownService, supporting both web scraping and direct conversion of local HTML files
Leverages Mozilla's Readability library to extract the main content from web pages while removing clutter and navigation elements
网站抓取工具
用于抓取网站并将 HTML 转换为 Markdown 的命令行工具和 MCP 服务器。
特征
- 使用 Mozilla 的Readability库(与 Firefox 的 Reader View 使用的引擎相同)从网页中提取有意义的内容
- 使用 TurndownService 将干净的 HTML 转换为高质量的 Markdown
- 通过删除潜在有害的脚本标签来安全地处理 HTML
- 既可用作命令行工具,又可用作 MCP 服务器
- 支持本地HTML文件直接转换为Markdown
安装
Copy
用法
CLI模式
Copy
MCP 服务器模式
该工具可用作模型上下文协议(MCP)服务器:
Copy
代码结构
src/index.ts
- 核心功能和 MCP 服务器实现src/cli.ts
- 命令行界面实现src/data_processing.ts
- HTML 到 Markdown 的转换功能
API
该工具导出以下功能:
Copy
执照
国际学习中心
This server cannot be installed
MCP 服务器使用 Mozilla 的 Readability 引擎从网站中提取有意义的内容并将 HTML 转换为高质量的 Markdown。