hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
Integrations
Converts arXiv PDF documents to markdown format, with support for table extraction and image extraction from the documents.
Integrates with Llama Stack (hosted on GitHub) to provide document processing capabilities to LLM applications built with the Llama Stack framework.
Converts various document formats to markdown, with support for embedded images extraction and OCR capabilities for scanned documents.
MCP ドキュメントサーバー
Docling ライブラリを使用してドキュメント処理機能を提供する MCP サーバー。
インストール
pip を使用してパッケージをインストールできます。
使用法
stdio (デフォルト) または SSE トランスポートのいずれかを使用してサーバーを起動します。
uv を使用している場合は、インストールせずにサーバーを直接実行できます。
利用可能なツール
サーバーは次のツールを公開します。
- convert_document : URL またはローカルパスからマークダウン形式にドキュメントを変換します
source
: ドキュメントへの URL またはローカルファイルパス (必須)enable_ocr
: スキャンしたドキュメントのOCRを有効にするかどうか(オプション、デフォルト: false)ocr_language
: OCRの言語コードのリスト、例: ["en", "fr"] (オプション)
- convert_document_with_images : ドキュメントを変換し、埋め込まれた画像を抽出する
source
: ドキュメントへの URL またはローカルファイルパス (必須)enable_ocr
: スキャンしたドキュメントのOCRを有効にするかどうか(オプション、デフォルト: false)ocr_language
: OCRの言語コードのリスト(オプション)
- extract_tables : ドキュメントから表を構造化データとして抽出する
source
: ドキュメントへの URL またはローカルファイルパス (必須)
- convert_batch : 複数のドキュメントをバッチモードで処理する
sources
: ドキュメントへのURLまたはファイルパスのリスト(必須)enable_ocr
: スキャンしたドキュメントのOCRを有効にするかどうか(オプション、デフォルト: false)ocr_language
: OCRの言語コードのリスト(オプション)
- qna_from_document : URL またはローカル パスから YAML 形式で Q&A ドキュメントを作成します
source
: ドキュメントへの URL またはローカルファイルパス (必須)no_of_qnas
: 予想されるQ&Aの数(オプション、デフォルト: 5)- 注: このツールでは、IBM Watson X の資格情報を環境変数として設定する必要があります。
WATSONX_PROJECT_ID
: Watson X プロジェクト IDWATSONX_APIKEY
: IBM Cloud APIキーWATSONX_URL
: Watson X API URL (デフォルト: https://us-south.ml.cloud.ibm.com )
- get_system_info : システム構成と加速ステータスに関する情報を取得します
ラマスタックの例
https://github.com/user-attachments/assets/8ad34e50-cbf7-4ec8-aedd-71c42a5de0a1
このサーバーをLlama Stackと併用することで、LLMアプリケーションにドキュメント処理機能を提供できます。Llama Stackサーバーが稼働していることを確認し、 INFERENCE_MODEL
を設定してください。
キャッシング
サーバーは、繰り返しのリクエストのパフォーマンスを向上させるために、処理済みのドキュメントを~/.cache/mcp-docling/
にキャッシュします。
This server cannot be installed
モデル コンテキスト プロトコルを使用してドキュメント処理機能を提供し、ドキュメントのマークダウンへの変換、表の抽出、ドキュメント画像の処理を可能にするサーバーです。