multimodal

定义

指同时处理文本、图像、音频、视频等多种输入输出模态的模型与系统能力。核心不只是“支持多种输入”，还包括跨模态对齐与联合推理能力，用于把不同信息载体映射到同一语义空间后再完成理解或生成。常见任务包括图文问答、文档图像解析、语音转文本、文本转语音、视频理解与跨模态检索。