ocr_from_url
Extract Markdown text from public document or image URLs using OCR. Customize page range, table format, and image extraction.
Instructions
从公开的文档或图片 URL 中提取 Markdown 文本。
默认使用 "mistral-ocr-latest" 模型。
默认不提取图片。若需提取,需设置 include_images=True。
可调参数:
- url (str): 必填,目标文件或图片的公网 URL 地址。
- pages (str, 默认 ""): 指定需要提取的页码范围(如 "0-3"),为空表示提取所有页面。
- table_format (str, 默认 "markdown"): 表格输出格式。可选 "markdown"、"html" 或 None。
- include_images (bool, 默认 False): 是否提取图片。若开启,将返回图片信息。
- extract_header (bool, 默认 False): 是否专门解析并提取页眉。
- extract_footer (bool, 默认 False): 是否专门解析并提取页脚。
- image_limit (int, 默认 0): 限制单次提取的最大图片数量。
- image_min_size (int, 默认 0): 设置提取图片的最小尺寸限制(像素)。
Input Schema
| Name | Required | Description | Default |
|---|---|---|---|
| url | Yes | ||
| pages | No | ||
| image_limit | No | ||
| table_format | No | markdown | |
| extract_footer | No | ||
| extract_header | No | ||
| image_min_size | No | ||
| include_images | No |
Output Schema
| Name | Required | Description | Default |
|---|---|---|---|
| result | Yes |