mcp-pdf2md

by FutureUnreal
Verified

local-only server

The server can only run on the client’s local machine because it depends on local resources.

Integrations

  • Repository hosting for the MCP-PDF2MD service, allowing users to clone and set up the service from GitHub

  • Automatically recognizes and converts mathematical formulas found in PDF documents to LaTeX format

  • Converts PDF content to structured Markdown format, preserving document structure including headings, paragraphs, lists, and tables

MCP-PDF2MD

英語|中国語

MCP-PDF2MDサービス

MinerU API を搭載した MCP ベースの高性能 PDF から Markdown への変換サービス。構造化された出力によるローカル ファイルと URL リンクのバッチ処理をサポートします。

主な特徴

  • フォーマット変換: PDF ファイルを構造化された Markdown フォーマットに変換します。
  • マルチソース サポート: ローカル PDF ファイルと URL リンクの両方を処理します。
  • インテリジェント処理: 最適な処理方法を自動的に選択します。
  • バッチ処理: 大量の PDF ファイルを効率的に処理するために、複数ファイルのバッチ変換をサポートします。
  • MCP 統合: Claude Desktop などの LLM クライアントとのシームレスな統合。
  • 構造の保持: 見出し、段落、リストなど、元のドキュメント構造を維持します。
  • スマート レイアウト: 単一列、複数列、複雑なレイアウトに適した、人間が読める順序でテキストを出力します。
  • 数式変換: 文書内の数式を自動的に認識し、LaTeX 形式に変換します。
  • 表の抽出: ドキュメント内の表を自動的に認識し、構造化された形式に変換します。
  • クリーンアップの最適化: ヘッダー、フッター、脚注、ページ番号などを削除して、意味の一貫性を確保します。
  • 高品質の抽出: PDF ドキュメントからテキスト、画像、レイアウト情報を高品質に抽出します。

システム要件

  • ソフトウェア: Python 3.10+

クイックスタート

  1. リポジトリをクローンしてディレクトリに入ります:
    git clone https://github.com/FutureUnreal/mcp-pdf2md.git cd mcp-pdf2md
  2. 仮想環境を作成し、依存関係をインストールします。Linux/macOS :
    uv venv source .venv/bin/activate uv pip install -e .
    ウィンドウズ:
    uv venv .venv\Scripts\activate uv pip install -e .
  3. 環境変数を設定します。プロジェクトのルート ディレクトリに.envファイルを作成し、次の環境変数を設定します。
    MINERU_API_BASE=https://mineru.net/api/v4/extract/task MINERU_BATCH_API=https://mineru.net/api/v4/extract/task/batch MINERU_BATCH_RESULTS_API=https://mineru.net/api/v4/extract-results/batch MINERU_API_KEY=your_api_key_here
  4. サービスを開始します:
    uv run pdf2md

コマンドライン引数

サーバーは次のコマンド ライン引数をサポートしています:

クロードデスクトップ構成

Claude Desktop に次の構成を追加します。

ウィンドウズ:

{ "mcpServers": { "pdf2md": { "command": "uv", "args": [ "--directory", "C:\\path\\to\\mcp-pdf2md", "run", "pdf2md", "--output-dir", "C:\\path\\to\\output" ], "env": { "MINERU_API_KEY": "your_api_key_here" } } } }

Linux/macOS :

{ "mcpServers": { "pdf2md": { "command": "uv", "args": [ "--directory", "/path/to/mcp-pdf2md", "run", "pdf2md", "--output-dir", "/path/to/output" ], "env": { "MINERU_API_KEY": "your_api_key_here" } } } }

API キー設定に関する注意: API キーは次の 2 つの方法で設定できます。

  1. プロジェクトディレクトリ内の.envファイル内(開発に推奨)
  2. 上記のClaude Desktop構成(通常の使用に推奨)

両方の場所で API キーを設定した場合、Claude Desktop 構成のキーが優先されます。

MCPツール

サーバーは次の MCP ツールを提供します。

  • convert_pdf_url : PDF URL を Markdown に変換する
  • convert_pdf_file : ローカルのPDFファイルをMarkdownに変換する

MinerU APIキーの取得

このプロジェクトは、PDFコンテンツの抽出にMinerU APIを使用しています。APIキーを取得するには、以下の手順に従ってください。

  1. MinerUの公式サイトにアクセスしてアカウントを登録してください
  2. ログイン後、こちらのリンクからAPIテスト資格を申請してください。
  3. アプリケーションが承認されると、 API管理ページにアクセスできるようになります。
  4. 提供された指示に従ってAPIキーを生成します
  5. 生成されたAPIキーをコピーします
  6. この文字列をMINERU_API_KEYの値として使用します

MinerU APIへのアクセスは現在テスト段階であり、MinerUチームの承認が必要です。承認プロセスには時間がかかる場合がありますので、計画的に進めてください。

デモ

入力PDF

出力マークダウン

ライセンス

MIT ライセンス - 詳細については LICENSE ファイルを参照してください。

クレジット

このプロジェクトは、 MinerUの API に基づいています。

-
security - not tested
A
license - permissive license
-
quality - not tested

PDFからMarkdownへの変換ツール

  1. MCP-PDF2MD Service
    1. Key Features
    2. System Requirements
    3. Quick Start
    4. Command Line Arguments
    5. Claude Desktop Configuration
    6. MCP Tools
    7. Getting MinerU API Key
    8. Demo
    9. License
    10. Credits
ID: o7mmw049st