MCP サーバー可読性パーサー (Python / FastMCP)
クレジット/参考文献
このプロジェクトは、 emzimmerのオリジナルのserver-moz-readability実装に基づいています。(オリジナルの README ドキュメントについては、オリジナルの README.mdを参照してください。)
このPython実装は、 FastMCPを使用してPythonベースのMCPとして実行するためのオリジナルのコンセプトを採用しています。
Mozilla 読みやすさパーサー MCP サーバー
Web ページのコンテンツを抽出し、クリーンで LLM に最適化された Markdown に変換するModel Context Protocol (MCP)サーバーの Python 実装です。
目次
特徴
- 広告、ナビゲーション、フッター、その他の不要なコンテンツを削除します
- クリーンなHTMLをフォーマットされたMarkdownに変換します
- エラーを適切に処理する
- LLM処理に最適化
- 軽量で高速
ただフェッチするだけではダメですか?
単純なフェッチ要求とは異なり、このサーバーは次の処理を行います。
- 読みやすさアルゴリズムを使用して関連コンテンツのみを抽出します
- 広告、ポップアップ、ナビゲーションメニューなどのノイズを排除します
- 不要なHTML/CSSを削除することでトークンの使用量を削減します
- LLM処理を向上させるために一貫したマークダウンフォーマットを提供します
- 動的なコンテンツを含む複雑なWebページを処理
インストール
- リポジトリをクローンします。
- 仮想環境を作成してアクティブ化します。
- 依存関係をインストールします:
クイックスタート
- サーバーを起動します。
- リクエストの例:
ツールリファレンス
extract_content
Web ページのコンテンツを取得して、クリーンな Markdown に変換します。
引数:
戻り値:
MCP サーバーの構成
MCP サーバーを構成するには、MCP 設定ファイルに次の行を追加します。
その後、MCP プロトコルを使用してサーバーを起動し、 parse
ツールを介してアクセスできるようになります。
依存関係
- readability-lxml - コンテンツ抽出
- html2text - HTMLからMarkdownへの変換
- beautifulsoup4 - DOM解析
- リクエスト- HTTPリクエスト
ライセンス
MIT ライセンス - 詳細についてはライセンスを参照してください。
This server cannot be installed
remote-capable server
The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.
Web ページのコンテンツを抽出し、広告や不要な要素を削除して、クリーンで LLM に最適化された Markdown に変換する MCP サーバーの Python 実装。
Related Resources
Related MCP Servers
- AsecurityAlicenseAqualityA powerful MCP server for fetching and transforming web content into various formats (HTML, JSON, Markdown, Plain Text) with ease.Last updated -414612TypeScriptMIT License
- -securityAlicense-qualityA Python-based MCP server that crawls websites to extract and save content as markdown files, with features for mapping website structure and links.Last updated -1PythonMIT License
- AsecurityAlicenseAqualityAn MCP server that retrieves web page content using Playwright headless browser, capable of extracting main content and converting to Markdown format.Last updated -2651727TypeScriptMIT License
- -securityFlicense-qualityAn MCP server that extracts meaningful content from websites and converts HTML to high-quality Markdown, using Mozilla's Readability engine.Last updated -11,9932JavaScript