Skip to main content
Glama
ENHANCEMENTS.md4.71 kB
# Website to Markdown MCP Server - 增強功能說明 本文件說明在 v1.2.0 版本中實作的主要增強功能。 ## 🚀 核心改進 ### 1. 增強的內容獲取器 (EnhancedWebsiteFetcher) #### 新功能特點: - **智能重試機制**: 自動重試失敗的請求,使用指數退避算法 - **進階內容清理**: 智能移除廣告、導航欄、側邊欄等無關內容 - **主內容提取**: 使用多種策略自動識別和提取網頁主要內容 - **啟發式內容分析**: 當無法找到明確的內容區域時,使用評分算法選擇最佳內容 #### 統計信息增強: - **字數統計**: 支援中英文混合的準確字數計算 - **閱讀時間估算**: 基於內容長度計算預估閱讀時間 - **自動摘要生成**: 智能提取內容摘要 - **語言檢測**: 自動識別內容主要語言(中文/英文) ### 2. 改進的 Markdown 處理 #### 新支援的 HTML 元素: - **刪除線**: `<del>`, `<s>` → `~~text~~` - **下劃線**: `<u>` → `<u>text</u>` - **高亮標記**: `<mark>` → `==text==` - **鍵盤輸入**: `<kbd>` → `\`key\`` #### 內容後處理: - 自動清理多餘空行 - 統一列表格式 - 改善連結格式 - 移除純空白行 ### 3. 錯誤處理和重試機制 #### 重試策略: - **最大重試次數**: 3次 - **基礎延遲**: 1秒 - **退避因子**: 2倍(1s → 2s → 4s) - **詳細錯誤記錄**: 完整的錯誤追蹤和日誌 #### 錯誤恢復: - 網路超時自動重試 - HTTP 錯誤狀態碼處理 - DNS 解析失敗重試 - 連接被拒絕重試 ### 4. 內容質量優化 #### 廣告和雜訊移除: ```javascript // 自動移除的元素類型 - 含有 "ad", "ads", "advertisement" 的元素 - 贊助商內容 ("sponsor", "banner") - 彈出視窗 ("popup", "modal") - Google AdSense 相關元素 ``` #### 主內容識別: ```javascript // 內容選擇器優先順序 1. main, [role="main"] 2. article, .article 3. .content, .post-content 4. .entry-content, .post-body 5. 啟發式演算法評分 ``` ### 5. 性能監控 #### 執行時間追蹤: - 請求開始到結束的完整時間 - 詳細的處理步驟時間記錄 - 性能瓶頸識別 #### 統計資訊: - 處理的總字數 - 估算的閱讀時間 - 內容語言分佈 ## 📊 輸出格式增強 ### 新增的元數據字段: ```markdown # 網站標題 **來源**: https://example.com **網站**: 網站名稱 **描述**: 網站描述 **摘要**: 自動生成的內容摘要 **預估閱讀時間**: 5 分鐘 **字數統計**: 1,234 **語言**: 中文 **類型**: 一般網頁 / OpenAPI規範 --- 網站內容的 Markdown 格式... ``` ## 🛠️ 技術改進 ### 1. 模組化架構 - 將增強功能分離到 `EnhancedWebsiteFetcher` 類 - 保持向後相容性 - 易於測試和維護 ### 2. 更好的用戶體驗 - 中文介面和錯誤訊息 - 詳細的處理狀態反饋 - 豐富的內容統計信息 ### 3. 可配置選項 ```typescript interface ContentOptions { removeAds?: boolean; // 移除廣告 removeNavigation?: boolean; // 移除導航 extractMainContent?: boolean; // 提取主內容 timeout?: number; // 請求超時 userAgent?: string; // 自定義 User-Agent } ``` ## 🔧 使用方式 ### 基本使用(無變化) ```bash # 獲取任意網站 fetch_website url="https://example.com" # 獲取預配置網站 fetch_tailwind_css fetch_nextjs fetch_react ``` ### 新增功能會自動應用 - 所有現有的工具調用都會自動使用新的增強功能 - 無需修改現有的使用方式 - 輸出格式向後相容,但包含更多有用信息 ## 📈 性能提升 ### 內容質量 - **更準確的主內容提取**: 減少雜訊內容 - **更好的 Markdown 格式**: 改善可讀性 - **智能廣告移除**: 清潔的內容輸出 ### 可靠性 - **3倍重試機制**: 大幅降低失敗率 - **指數退避**: 避免服務器壓力 - **詳細錯誤信息**: 更容易排查問題 ### 用戶體驗 - **豐富的元數據**: 更多上下文信息 - **閱讀時間估算**: 幫助用戶評估內容長度 - **自動摘要**: 快速了解內容概要 ## 🔮 未來計劃 ### 即將推出的功能: 1. **隱身瀏覽器支援**: 處理 JavaScript 渲染的網站 2. **快取系統**: 避免重複請求相同內容 3. **並發控制**: 智能的請求頻率限制 4. **配置管理**: 動態配置更新和管理 5. **監控和分析**: 詳細的使用統計和性能分析 ### 潛在改進: - PDF 文件支援 - 圖片內容提取和描述 - 多語言翻譯集成 - 內容去重和相似度檢測 - API 文檔專用的進階解析 --- **版本**: 1.2.0 **更新日期**: 2025年1月 **相容性**: 向下相容所有 1.x 版本

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/SunZhi-Will/website-to-markdown-mcp'

If you have feedback or need assistance with the MCP directory API, please join our Discord server