ocr_url_to_markdown_file
Extract text from documents via public URL using Mistral OCR and save as Markdown file. Supports page ranges, table formatting, and image extraction.
Instructions
OCR 公网 URL 指向的文件并将生成的 Markdown 保存至磁盘。
默认使用 "mistral-ocr-latest" 模型。
默认不提取图片。若需提取,需设置 include_images=True。
可调参数:
- url (str): 必填,目标文件或图片的公网 URL 地址。
- pages (str, 默认 ""): 指定需要提取的页码范围(如 "0-3"),为空表示提取所有页面。
- output_dir (str, 默认 ""): 指定保存 Markdown 文件的目录路径,若为空则使用默认输出目录。
- table_format (str, 默认 "markdown"): 表格输出格式。可选 "markdown"、"html" 或 None。
- include_images (bool, 默认 False): 是否提取图片。若开启,将返回并保存图片信息。
- extract_header (bool, 默认 False): 是否专门解析并提取页眉。
- extract_footer (bool, 默认 False): 是否专门解析并提取页脚。
- use_cache (bool, 默认 True): 是否启用缓存,已处理过的内容直接返回缓存路径。
- image_limit (int, 默认 0): 限制单次提取的最大图片数量。
- image_min_size (int, 默认 0): 设置提取图片的最小尺寸限制(像素)。
Input Schema
| Name | Required | Description | Default |
|---|---|---|---|
| url | Yes | ||
| pages | No | ||
| use_cache | No | ||
| output_dir | No | ||
| image_limit | No | ||
| table_format | No | markdown | |
| extract_footer | No | ||
| extract_header | No | ||
| image_min_size | No | ||
| include_images | No |
Output Schema
| Name | Required | Description | Default |
|---|---|---|---|
| result | Yes |