hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
Integrations
Converts arXiv PDF documents to markdown format, with support for table extraction and image extraction from the documents.
Integrates with Llama Stack (hosted on GitHub) to provide document processing capabilities to LLM applications built with the Llama Stack framework.
Converts various document formats to markdown, with support for embedded images extraction and OCR capabilities for scanned documents.
MCP 文档服务器
使用 Docling 库提供文档处理功能的 MCP 服务器。
安装
您可以使用 pip 安装该软件包:
用法
使用 stdio(默认)或 SSE 传输启动服务器:
如果您使用 uv,则无需安装即可直接运行服务器:
可用工具
该服务器公开以下工具:
- convert_document :将文档从 URL 或本地路径转换为 markdown 格式
source
:文档的 URL 或本地文件路径(必需)enable_ocr
:是否对扫描文档启用 OCR(可选,默认值:false)ocr_language
:OCR 的语言代码列表,例如 [“en”,“fr”](可选)
- convert_document_with_images :转换文档并提取嵌入的图像
source
:文档的 URL 或本地文件路径(必需)enable_ocr
:是否对扫描文档启用 OCR(可选,默认值:false)ocr_language
:OCR 的语言代码列表(可选)
- extract_tables :从文档中提取表格作为结构化数据
source
:文档的 URL 或本地文件路径(必需)
- convert_batch :以批处理模式处理多个文档
sources
:文档的 URL 或文件路径列表(必需)enable_ocr
:是否对扫描文档启用 OCR(可选,默认值:false)ocr_language
:OCR 的语言代码列表(可选)
- qna_from_document :从 URL 或本地路径创建 YAML 格式的问答文档
source
:文档的 URL 或本地文件路径(必需)no_of_qnas
:预期问答数量(可选,默认值:5)- 注意:此工具需要将 IBM Watson X 凭证设置为环境变量:
WATSONX_PROJECT_ID
:您的 Watson X 项目 IDWATSONX_APIKEY
:您的 IBM Cloud API 密钥WATSONX_URL
:Watson X API URL(默认值: https ://us-south.ml.cloud.ibm.com)
- get_system_info :获取有关系统配置和加速状态的信息
Llama Stack 示例
https://github.com/user-attachments/assets/8ad34e50-cbf7-4ec8-aedd-71c42a5de0a1
您可以将此服务器与Llama Stack配合使用,为您的 LLM 应用程序提供文档处理功能。请确保您已运行 Llama Stack 服务器,然后配置您的INFERENCE_MODEL
缓存
服务器将处理过的文档缓存在~/.cache/mcp-docling/
中,以提高重复请求的性能。
This server cannot be installed
使用模型上下文协议提供文档处理功能的服务器,允许将文档转换为 markdown、提取表格以及处理文档图像。