understand_audio
Transcribe, summarize, or analyze audio content by providing a task prompt and audio file or URL.
Instructions
调用小米 MIMO 多模态模型理解音频。
何时使用:当需要转录、总结、分析音频内容时使用。 不要用于:读取音频源码或元数据,这些应使用其他工具。
Args: prompt: 音频理解任务描述,如"转录音频内容"、"总结音频要点"、"识别说话人" audio_url: 单个网络音频 URL audio_path: 单个本地音频文件路径 audio_urls: 多个网络音频 URL audio_paths: 多个本地音频文件路径 system_prompt: 可选系统提示词,用于自定义模型行为 max_tokens: 最大输出长度 (默认 8192,最大 32768)
Returns: MIMO 模型返回的音频理解结果。
支持格式:MP3,WAV,FLAC,M4A,OGG 大小限制:URL方式100MB,Base64方式50MB
Input Schema
| Name | Required | Description | Default |
|---|---|---|---|
| prompt | Yes | ||
| audio_url | No | ||
| audio_path | No | ||
| audio_urls | No | ||
| max_tokens | No | ||
| audio_paths | No | ||
| system_prompt | No |
Output Schema
| Name | Required | Description | Default |
|---|---|---|---|
| result | Yes |