MCP サーバー可読性パーサー (Python / FastMCP)
クレジット/参考文献
このプロジェクトは、 emzimmerのオリジナルのserver-moz-readability実装に基づいています。(オリジナルの README ドキュメントについては、オリジナルの README.mdを参照してください。)
このPython実装は、 FastMCPを使用してPythonベースのMCPとして実行するためのオリジナルのコンセプトを採用しています。
Mozilla 読みやすさパーサー MCP サーバー
Web ページのコンテンツを抽出し、クリーンで LLM に最適化された Markdown に変換するModel Context Protocol (MCP)サーバーの Python 実装です。
Related MCP server: MD Webcrawl MCP
目次
特徴
広告、ナビゲーション、フッター、その他の不要なコンテンツを削除します
クリーンなHTMLをフォーマットされたMarkdownに変換します
エラーを適切に処理する
LLM処理に最適化
軽量で高速
ただフェッチするだけではダメですか?
単純なフェッチ要求とは異なり、このサーバーは次の処理を行います。
読みやすさアルゴリズムを使用して関連コンテンツのみを抽出します
広告、ポップアップ、ナビゲーションメニューなどのノイズを排除します
不要なHTML/CSSを削除することでトークンの使用量を削減します
LLM処理を向上させるために一貫したマークダウンフォーマットを提供します
動的なコンテンツを含む複雑なWebページを処理
インストール
リポジトリをクローンします。
git clone https://github.com/jmh108/MCP-server-readability-python.git
cd MCP-server-readability-python仮想環境を作成してアクティブ化します。
python -m venv venv
source venv/bin/activate # On Windows use: venv\Scripts\activate依存関係をインストールします:
pip install -r requirements.txtクイックスタート
サーバーを起動します。
fastmcp run server.pyリクエストの例:
curl -X POST http://localhost:8000/tools/extract_content \
-H "Content-Type: application/json" \
-d '{"url": "https://example.com/article"}'ツールリファレンス
extract_content
Web ページのコンテンツを取得して、クリーンな Markdown に変換します。
引数:
{
"url": {
"type": "string",
"description": "The website URL to parse",
"required": true
}
}戻り値:
{
"content": "Markdown content..."
}MCP サーバーの構成
MCP サーバーを構成するには、MCP 設定ファイルに次の行を追加します。
{
"mcpServers": {
"readability": {
"command": "fastmcp",
"args": ["run", "server.py"],
"env": {}
}
}
}その後、MCP プロトコルを使用してサーバーを起動し、 parseツールを介してアクセスできるようになります。
依存関係
readability-lxml - コンテンツ抽出
html2text - HTMLからMarkdownへの変換
beautifulsoup4 - DOM解析
リクエスト- HTTPリクエスト
ライセンス
MIT ライセンス - 詳細についてはライセンスを参照してください。