understand_image
Analyze, describe, or extract text from images using natural language prompts. Supports single or multiple images in JPEG, PNG, GIF, WebP, BMP.
Instructions
调用小米 MIMO 多模态模型理解图片。
何时使用:当需要分析、描述、OCR、识别图片内容时使用。 不要用于:读取代码文件、文本文件等非图片文件,这些应使用 Read 工具。
Args: prompt: 图片理解任务描述,如"描述这张图片"、"提取图中的文字"、"解释这个图表" image_url: 单张网络图片 URL 或 data:image base64 image_path: 单张本地图片路径 image_urls: 多张网络图片 URL image_paths: 多张本地图片路径 system_prompt: 可选系统提示词,用于自定义模型行为 max_tokens: 最大输出长度 (默认 8192,最大 32768)
Returns: MIMO 模型返回的图片理解结果。
支持格式:JPEG,PNG,GIF,WebP,BMP 大小限制:单张图片不超过 50MB
Input Schema
| Name | Required | Description | Default |
|---|---|---|---|
| prompt | Yes | ||
| image_url | No | ||
| image_path | No | ||
| image_urls | No | ||
| max_tokens | No | ||
| image_paths | No | ||
| system_prompt | No |
Output Schema
| Name | Required | Description | Default |
|---|---|---|---|
| result | Yes |