MCP サーバー可読性パーサー (Python / FastMCP)
クレジット/参考文献
このプロジェクトは、 emzimmerのオリジナルのserver-moz-readability実装に基づいています。(オリジナルの README ドキュメントについては、オリジナルの README.mdを参照してください。)
このPython実装は、 FastMCPを使用してPythonベースのMCPとして実行するためのオリジナルのコンセプトを採用しています。
Mozilla 読みやすさパーサー MCP サーバー
Web ページのコンテンツを抽出し、クリーンで LLM に最適化された Markdown に変換するModel Context Protocol (MCP)サーバーの Python 実装です。
Related MCP server: MD Webcrawl MCP
目次
特徴
広告、ナビゲーション、フッター、その他の不要なコンテンツを削除します
クリーンなHTMLをフォーマットされたMarkdownに変換します
エラーを適切に処理する
LLM処理に最適化
軽量で高速
ただフェッチするだけではダメですか?
単純なフェッチ要求とは異なり、このサーバーは次の処理を行います。
読みやすさアルゴリズムを使用して関連コンテンツのみを抽出します
広告、ポップアップ、ナビゲーションメニューなどのノイズを排除します
不要なHTML/CSSを削除することでトークンの使用量を削減します
LLM処理を向上させるために一貫したマークダウンフォーマットを提供します
動的なコンテンツを含む複雑なWebページを処理
インストール
リポジトリをクローンします。
仮想環境を作成してアクティブ化します。
依存関係をインストールします:
クイックスタート
サーバーを起動します。
リクエストの例:
ツールリファレンス
extract_content
Web ページのコンテンツを取得して、クリーンな Markdown に変換します。
引数:
戻り値:
MCP サーバーの構成
MCP サーバーを構成するには、MCP 設定ファイルに次の行を追加します。
その後、MCP プロトコルを使用してサーバーを起動し、 parseツールを介してアクセスできるようになります。
依存関係
readability-lxml - コンテンツ抽出
html2text - HTMLからMarkdownへの変換
beautifulsoup4 - DOM解析
リクエスト- HTTPリクエスト
ライセンス
MIT ライセンス - 詳細についてはライセンスを参照してください。