# Website to Markdown MCP Server - 增強功能說明
本文件說明在 v1.2.0 版本中實作的主要增強功能。
## 🚀 核心改進
### 1. 增強的內容獲取器 (EnhancedWebsiteFetcher)
#### 新功能特點:
- **智能重試機制**: 自動重試失敗的請求,使用指數退避算法
- **進階內容清理**: 智能移除廣告、導航欄、側邊欄等無關內容
- **主內容提取**: 使用多種策略自動識別和提取網頁主要內容
- **啟發式內容分析**: 當無法找到明確的內容區域時,使用評分算法選擇最佳內容
#### 統計信息增強:
- **字數統計**: 支援中英文混合的準確字數計算
- **閱讀時間估算**: 基於內容長度計算預估閱讀時間
- **自動摘要生成**: 智能提取內容摘要
- **語言檢測**: 自動識別內容主要語言(中文/英文)
### 2. 改進的 Markdown 處理
#### 新支援的 HTML 元素:
- **刪除線**: `<del>`, `<s>` → `~~text~~`
- **下劃線**: `<u>` → `<u>text</u>`
- **高亮標記**: `<mark>` → `==text==`
- **鍵盤輸入**: `<kbd>` → `\`key\``
#### 內容後處理:
- 自動清理多餘空行
- 統一列表格式
- 改善連結格式
- 移除純空白行
### 3. 錯誤處理和重試機制
#### 重試策略:
- **最大重試次數**: 3次
- **基礎延遲**: 1秒
- **退避因子**: 2倍(1s → 2s → 4s)
- **詳細錯誤記錄**: 完整的錯誤追蹤和日誌
#### 錯誤恢復:
- 網路超時自動重試
- HTTP 錯誤狀態碼處理
- DNS 解析失敗重試
- 連接被拒絕重試
### 4. 內容質量優化
#### 廣告和雜訊移除:
```javascript
// 自動移除的元素類型
- 含有 "ad", "ads", "advertisement" 的元素
- 贊助商內容 ("sponsor", "banner")
- 彈出視窗 ("popup", "modal")
- Google AdSense 相關元素
```
#### 主內容識別:
```javascript
// 內容選擇器優先順序
1. main, [role="main"]
2. article, .article
3. .content, .post-content
4. .entry-content, .post-body
5. 啟發式演算法評分
```
### 5. 性能監控
#### 執行時間追蹤:
- 請求開始到結束的完整時間
- 詳細的處理步驟時間記錄
- 性能瓶頸識別
#### 統計資訊:
- 處理的總字數
- 估算的閱讀時間
- 內容語言分佈
## 📊 輸出格式增強
### 新增的元數據字段:
```markdown
# 網站標題
**來源**: https://example.com
**網站**: 網站名稱
**描述**: 網站描述
**摘要**: 自動生成的內容摘要
**預估閱讀時間**: 5 分鐘
**字數統計**: 1,234
**語言**: 中文
**類型**: 一般網頁 / OpenAPI規範
---
網站內容的 Markdown 格式...
```
## 🛠️ 技術改進
### 1. 模組化架構
- 將增強功能分離到 `EnhancedWebsiteFetcher` 類
- 保持向後相容性
- 易於測試和維護
### 2. 更好的用戶體驗
- 中文介面和錯誤訊息
- 詳細的處理狀態反饋
- 豐富的內容統計信息
### 3. 可配置選項
```typescript
interface ContentOptions {
removeAds?: boolean; // 移除廣告
removeNavigation?: boolean; // 移除導航
extractMainContent?: boolean; // 提取主內容
timeout?: number; // 請求超時
userAgent?: string; // 自定義 User-Agent
}
```
## 🔧 使用方式
### 基本使用(無變化)
```bash
# 獲取任意網站
fetch_website url="https://example.com"
# 獲取預配置網站
fetch_tailwind_css
fetch_nextjs
fetch_react
```
### 新增功能會自動應用
- 所有現有的工具調用都會自動使用新的增強功能
- 無需修改現有的使用方式
- 輸出格式向後相容,但包含更多有用信息
## 📈 性能提升
### 內容質量
- **更準確的主內容提取**: 減少雜訊內容
- **更好的 Markdown 格式**: 改善可讀性
- **智能廣告移除**: 清潔的內容輸出
### 可靠性
- **3倍重試機制**: 大幅降低失敗率
- **指數退避**: 避免服務器壓力
- **詳細錯誤信息**: 更容易排查問題
### 用戶體驗
- **豐富的元數據**: 更多上下文信息
- **閱讀時間估算**: 幫助用戶評估內容長度
- **自動摘要**: 快速了解內容概要
## 🔮 未來計劃
### 即將推出的功能:
1. **隱身瀏覽器支援**: 處理 JavaScript 渲染的網站
2. **快取系統**: 避免重複請求相同內容
3. **並發控制**: 智能的請求頻率限制
4. **配置管理**: 動態配置更新和管理
5. **監控和分析**: 詳細的使用統計和性能分析
### 潛在改進:
- PDF 文件支援
- 圖片內容提取和描述
- 多語言翻譯集成
- 內容去重和相似度檢測
- API 文檔專用的進階解析
---
**版本**: 1.2.0
**更新日期**: 2025年1月
**相容性**: 向下相容所有 1.x 版本