定义

指同时处理文本、图像、音频、视频等多种输入输出模态的模型与系统能力。 核心不只是“支持多种输入”,还包括跨模态对齐与联合推理能力,用于把不同信息载体映射到同一语义空间后再完成理解或生成。 常见任务包括图文问答、文档图像解析、语音转文本、文本转语音、视频理解与跨模态检索。

相关词条

关联主题