📄 MCP PDF サーバー
FastMCPをベースにした PDF ファイル読み取りサーバー。
PDF テキスト抽出、OCR 認識、MCP プロトコル経由の画像抽出をサポートし、テストを簡単に行うための Web デバッガーが組み込まれています。
🚀 機能
PDFテキストを読む
PDF から通常のテキストを抽出します (ページごとに)。OCRによる読み取り
OCR を使用して、スキャンされた PDF または画像ベースの PDF からテキストを認識します。PDF画像を読む
指定された PDF ページからすべての画像を抽出します (Base64 エンコードされた出力)。
Related MCP server: Textin MCP Server
📂 プロジェクト構造
⚙️ インストール
推奨される Python バージョン: 3.9 以上
注意: OCR 機能を使用するには、OCR サポートまたは外部 OCR ライブラリを備えた MuPDF ビルドが必要になる場合があります。
🔦 サーバーを起動する
次のコマンドを実行します。
次のようなログが表示されます。
🌐 Webデバッグインターフェース
ブラウザを開いて次のサイトにアクセスしてください:
左パネルからツールを選択します
右側のパネルにパラメータを入力します
「実行」をクリックしてツールをテストします
コーディングは不要で、Web UI 経由で簡単にデバッグおよびテストできます。
🛠️ APIツールリスト
道具 | 説明 | 入力パラメータ | 返品 |
| PDFページから通常のテキストを抽出します |
| ページテキストのリスト |
| OCRでテキストを認識する |
| OCRで抽出したテキスト |
| PDFページから画像を抽出します |
| 画像リスト(Base64エンコード) |
📝 使用例
1 ページから 5 ページまでのテキストを抽出します。
1ページでOCR認識を実行します。
ページ 3 からすべての画像を抽出します。
📢 注意事項
ファイルは
pdf_resources/ディレクトリ内に配置するか、絶対パスを指定する必要があります。OCR 機能を使用するには、環境内で適切な OCR サポートが必要です。
大きなファイルを処理する場合は、必要に応じてメモリとタイムアウトの設定を調整します。
📜 ライセンス
このプロジェクトは MIT ライセンスに基づいてライセンスされています。
商用利用の場合は、元の出典を明記してください。