通用图像理解
image_analysisAnalyze images, videos, and screenshots to answer questions. Provides structured descriptions and responses based on visual input.
Instructions
通用兜底:理解任意图片并回答问题。不确定用哪个专用工具,或只是想问一张图时使用。
Input Schema
| Name | Required | Description | Default |
|---|---|---|---|
| image | Yes | 图片:本地路径 / file:// / http(s):// / data: URI | |
| question | No | 具体问题或额外要求 | |
| detail_level | No | 细节级别:overview=单次快速;normal/fine/auto 触发由粗到细的自动缩放(auto 为默认,足够清晰则早退) | |
| region | No | 可选:手动指定关注区域,命名如 'top-right' 或归一化 bbox 'x,y,w,h'(0~1) | |
| thinking | No | 是否开启视觉模型深度推理(默认按工具/后端策略) |
Output Schema
| Name | Required | Description | Default |
|---|---|---|---|
| markdown | Yes | 人类可读的结构化 markdown 正文(与 content 一致) | |
| confidence | No | 模型对结果的置信度 | |
| rounds | Yes | 实际经历的视觉调用轮数 | |
| regions | No | 缩放走过的区域轨迹(归一化 bbox) | |
| warnings | Yes | 降级/截断/不确定等告警 | |
| provider | Yes | ||
| model | Yes |