MCP-PDF2MD
MCP-PDF2MDサービス
MinerU API を搭載した MCP ベースの高性能 PDF から Markdown への変換サービス。構造化された出力によるローカル ファイルと URL リンクのバッチ処理をサポートします。
主な特徴
- フォーマット変換: PDF ファイルを構造化された Markdown フォーマットに変換します。
- マルチソース サポート: ローカル PDF ファイルと URL リンクの両方を処理します。
- インテリジェント処理: 最適な処理方法を自動的に選択します。
- バッチ処理: 大量の PDF ファイルを効率的に処理するために、複数ファイルのバッチ変換をサポートします。
- MCP 統合: Claude Desktop などの LLM クライアントとのシームレスな統合。
- 構造の保持: 見出し、段落、リストなど、元のドキュメント構造を維持します。
- スマート レイアウト: 単一列、複数列、複雑なレイアウトに適した、人間が読める順序でテキストを出力します。
- 数式変換: 文書内の数式を自動的に認識し、LaTeX 形式に変換します。
- 表の抽出: ドキュメント内の表を自動的に認識し、構造化された形式に変換します。
- クリーンアップの最適化: ヘッダー、フッター、脚注、ページ番号などを削除して、意味の一貫性を確保します。
- 高品質の抽出: PDF ドキュメントからテキスト、画像、レイアウト情報を高品質に抽出します。
システム要件
- ソフトウェア: Python 3.10+
クイックスタート
- リポジトリをクローンしてディレクトリに入ります:
- 仮想環境を作成し、依存関係をインストールします。Linux/macOS :ウィンドウズ:
- 環境変数を設定します。プロジェクトのルート ディレクトリに
.env
ファイルを作成し、次の環境変数を設定します。 - サービスを開始します:
コマンドライン引数
サーバーは次のコマンド ライン引数をサポートしています:
クロードデスクトップ構成
Claude Desktop に次の構成を追加します。
ウィンドウズ:
Linux/macOS :
API キー設定に関する注意: API キーは次の 2 つの方法で設定できます。
- プロジェクトディレクトリ内の
.env
ファイル内(開発に推奨) - 上記のClaude Desktop構成(通常の使用に推奨)
両方の場所で API キーを設定した場合、Claude Desktop 構成のキーが優先されます。
MCPツール
サーバーは次の MCP ツールを提供します。
- convert_pdf_url : PDF URL を Markdown に変換する
- convert_pdf_file : ローカルのPDFファイルをMarkdownに変換する
MinerU APIキーの取得
このプロジェクトは、PDFコンテンツの抽出にMinerU APIを使用しています。APIキーを取得するには、以下の手順に従ってください。
- MinerUの公式サイトにアクセスしてアカウントを登録してください
- ログイン後、こちらのリンクからAPIテスト資格を申請してください。
- アプリケーションが承認されると、 API管理ページにアクセスできるようになります。
- 提供された指示に従ってAPIキーを生成します
- 生成されたAPIキーをコピーします
- この文字列を
MINERU_API_KEY
の値として使用します
MinerU APIへのアクセスは現在テスト段階であり、MinerUチームの承認が必要です。承認プロセスには時間がかかる場合がありますので、計画的に進めてください。
デモ
入力PDF
出力マークダウン
ライセンス
MIT ライセンス - 詳細については LICENSE ファイルを参照してください。
クレジット
このプロジェクトは、 MinerUの API に基づいています。
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
PDFからMarkdownへの変換ツール
Related MCP Servers
- AsecurityFlicenseAqualityAn MCP server for converting Markdown documents to PDF files.Last updated -11JavaScript
- AsecurityAlicenseAqualityConverts various file types and web content to Markdown format. It provides a set of tools to transform PDFs, images, audio files, web pages, and more into easily readable and shareable Markdown text.Last updated -1021,611TypeScriptMIT License
- AsecurityAlicenseAqualityConverts various file formats to Markdown using the MarkItDown utility and can be integrated with MCP clients for seamless document processing and conversion.Last updated -26PythonMIT License
- -securityFlicense-qualityConverts Markdown to styled PDFs using VS Code's markdown styling and Python's ReportLab, providing a simple note storage system with custom URI scheme.Last updated -6Python