摘要
一句话总结 昆仑天工的SkyReels-V4凭借首创的多模态联合音视频生成与全维度编辑能力,在权威机构Artificial Analysis的文转视频(含音频)全球榜单中跃居第二。
关键点
- 榜单成绩:在Artificial Analysis文转视频(含音频)全球榜中排名第2,历史总榜位列第4,稳居全球第一梯队。
- 模型定位:全球首个同时支持多模态输入、联合音视频生成、统一生成/修复/编辑任务的视频基础模型。
- 多模态控制:支持文本、图像、视频、掩码和音频的混合输入,可实现基于参考图的风格迁移、主体保留及音频驱动的精准卡点动作生成。
- 视频修复与编辑:支持区域智能修复、去水印/字幕等元素移除,并允许凭空增加素材、删除特定人物以及全局风格和运镜的自由编辑。
- 原生音频生成:内置多语言语音合成、音效生成与背景音乐适配,音质达到专业级水准,台词清晰且环境音效逼真。
- 底层架构:采用双流MMDiT架构,音视频分支并行并共享MLLM编码器,实现内部联合生成而非后期拼凑。
- 画质与性能:通过“低清全序列+高清关键帧+超分插值”策略及视频稀疏注意力(VSA)机制,最终画面稳定在1080p、32帧、15秒的电影级水准。
- 应用落地:通过旗下DramaWave和FreeReels等短剧平台落地,形成“用户使用-数据回流-模型迭代”的正向循环。
风险/差距
- 模型在生成更长视频、更高分辨率(4K/8K)、跨语言创作及复杂场景音视频协同方面仍是需要攻克的难题。
- 推理成本仍需进一步降低,以便更好地落地到更多行业与场景中。
正文
杀进全球榜TOP2!国产视频模型黑马SkyReels-V4登场
全球视频大模型榜单,国产模型杀进前2。
最近,权威第三方机构Artificial Analysis更新了排行榜,来自昆仑天工的SkyReels-V4直接干到了文转视频(含音频)全球榜第2,位列Veo 3.1、Sora 2之前。在包括所有模型的历史榜单中也冲到第4位,稳居全球第一梯队。
Artificial Analysis是目前公认的“AI领域的Gartner”,其所有测试均在内部独立进行,不依赖各家实验室自行报告的数据,成绩含金量极高。更关键的是,这不单单是一次“纯文生视频”的胜利。当大多数模型还在卷文生视频时,SkyReels-V4已经实现了全模态参考、一体化生成,支持文本、图像、视频片段、掩码、音频参考的混合输入。
作为全球首个同时支持多模态输入、联合音视频生成、统一生成/修复/编辑任务的视频基础模型,SkyReels-V4展现出了四大核心技能:
多模态精准控制
SkyReels-V4支持文本、图像、视频片段等多种输入组合,甚至能参考掩码和音频,实现精准的多模态控制:
- 基于参考图像的风格迁移与主体保留:能够精准提取参考图像(如猫狗)的毛色、体态等细节,并无缝替换到原视频的人物主体上,同时摒弃原图背景。
- 音频驱动的动作生成:参考视频的背景音乐,模型能让视频主体的动作踩准节拍,实现精准卡点。
- 多参考融合创作:将多个图像的主体形象、视频的动作和音乐节拍等多种素材无痛融合在一起。
专业级视频修复
SkyReels-V4支持对已有内容进行专业级修复,在不破坏整体结构的前提下,实现局部精准改动:
- 区域智能修复:精准替换视频中的主体、修改属性(如服装颜色)或更换背景。
- 元素智能移除:自动识别并去除水印、字幕、Logo,保持背景内容自然连贯。
- 参考引导修复:基于参考图像的风格一致性修复,确保编辑前后视觉统一。
全维度视频编辑
与追求“极致的真”的视频修复不同,全维度视频编辑追求的是“创造的自由”。SkyReels-V4支持随心改、自由改:
- 凭空增加素材:例如根据一张帽子图片,精准地给视频C位的舞者戴上帽子,并保持颜色和Logo一致。
- 删除视频元素:一键移除视频中的特定人物或元素,实现无缝衔接。
- 全局与运镜编辑:支持一键替换视频风格(全局编辑)和改变运镜(相机运动控制)。
高品质音频生成
SkyReels-V4内置了多语言语音合成、音效生成、背景音乐适配等能力,支持情感语音、歌词同步演唱等高阶玩法。其音频生成质量在信号清晰度、音色真实度、动态范围等硬指标上,达到了不输专业音频生成工具的水准。台词清晰且充满情绪表现力,环境音效(如敲击木质桌面的声音及回音)极为逼真。
双流架构,一体生成
SkyReels-V4之所以能解决“画面没声音”、“输入方式单一且编辑不灵活”、“画质和速度难兼得”三大痛点,全靠其底层的技术突破:
- 双流MMDiT架构:视频和音频两个分支并行,共享同一个多模态大语言模型(MLLM)编码器。画面和声音在模型内部联合生成,不再依赖后期拼凑。
- 双向交叉注意力与精准对齐:在Transformer模块中加入双向交叉注意力,配合RoPE频率缩放,在微秒级时间轴上精准对齐音视频,实现严丝合缝的同步。
- 双维拼接玩法:采用通道拼接+时序拼接。通道维度上将带噪视频、条件帧、遮罩叠在一起,将各种任务转化为“带掩码的修复类”任务;时序维度上将参考素材拼进生成序列前端,让模型学习风格和特征。
- 画质与速度的工程解法:采用先快速出低清全序列,再提取高清关键帧,最后用超分和插值模型补细节的策略。配合视频稀疏注意力(VSA)机制,大幅降低计算量,最终画面稳定在1080p、32帧、15秒的电影级水准。
坚持多模态原生对齐
在多模态赛道中,昆仑天工一直坚持自研多模态原生对齐。从早期的文生图,到SkyReels系列的视频生成,再到Mureka音乐模型,直到如今V4版本将音视频同步生成、编辑与inpainting统一进同一架构,音频正式从外挂能力变成了原生分支。
昆仑天工不仅在底层架构上死磕,还通过旗下DramaWave和FreeReels等短剧平台,将多模态能力真正落地到创作场景中。创作者可以在一个作品里调用视频生成、配乐、字幕和音画同步等全套能力,形成“用户使用-数据回流-模型迭代”的正向循环。
未来,团队还将继续攻克更长视频、更高分辨率(4K/8K)、跨语言创作及复杂场景音视频协同等难题,进一步降低推理成本,让这套全流程一体化的AI创作工具落到更多行业与场景中。