摘要

一句话总结 昆仑天工的SkyReels-V4凭借首创的多模态联合音视频生成与全维度编辑能力，在权威机构Artificial Analysis的文转视频（含音频）全球榜单中跃居第二。

关键点

榜单成绩：在Artificial Analysis文转视频（含音频）全球榜中排名第2，历史总榜位列第4，稳居全球第一梯队。
模型定位：全球首个同时支持多模态输入、联合音视频生成、统一生成/修复/编辑任务的视频基础模型。
多模态控制：支持文本、图像、视频、掩码和音频的混合输入，可实现基于参考图的风格迁移、主体保留及音频驱动的精准卡点动作生成。
视频修复与编辑：支持区域智能修复、去水印/字幕等元素移除，并允许凭空增加素材、删除特定人物以及全局风格和运镜的自由编辑。
原生音频生成：内置多语言语音合成、音效生成与背景音乐适配，音质达到专业级水准，台词清晰且环境音效逼真。
底层架构：采用双流MMDiT架构，音视频分支并行并共享MLLM编码器，实现内部联合生成而非后期拼凑。
画质与性能：通过“低清全序列+高清关键帧+超分插值”策略及视频稀疏注意力（VSA）机制，最终画面稳定在1080p、32帧、15秒的电影级水准。
应用落地：通过旗下DramaWave和FreeReels等短剧平台落地，形成“用户使用-数据回流-模型迭代”的正向循环。

风险/差距

模型在生成更长视频、更高分辨率（4K/8K）、跨语言创作及复杂场景音视频协同方面仍是需要攻克的难题。
推理成本仍需进一步降低，以便更好地落地到更多行业与场景中。

正文

杀进全球榜TOP2！国产视频模型黑马SkyReels-V4登场

全球视频大模型榜单，国产模型杀进前2。

最近，权威第三方机构Artificial Analysis更新了排行榜，来自昆仑天工的SkyReels-V4直接干到了文转视频（含音频）全球榜第2，位列Veo 3.1、Sora 2之前。在包括所有模型的历史榜单中也冲到第4位，稳居全球第一梯队。

Artificial Analysis是目前公认的“AI领域的Gartner”，其所有测试均在内部独立进行，不依赖各家实验室自行报告的数据，成绩含金量极高。更关键的是，这不单单是一次“纯文生视频”的胜利。当大多数模型还在卷文生视频时，SkyReels-V4已经实现了全模态参考、一体化生成，支持文本、图像、视频片段、掩码、音频参考的混合输入。

作为全球首个同时支持多模态输入、联合音视频生成、统一生成/修复/编辑任务的视频基础模型，SkyReels-V4展现出了四大核心技能：

多模态精准控制

SkyReels-V4支持文本、图像、视频片段等多种输入组合，甚至能参考掩码和音频，实现精准的多模态控制：

基于参考图像的风格迁移与主体保留：能够精准提取参考图像（如猫狗）的毛色、体态等细节，并无缝替换到原视频的人物主体上，同时摒弃原图背景。
音频驱动的动作生成：参考视频的背景音乐，模型能让视频主体的动作踩准节拍，实现精准卡点。
多参考融合创作：将多个图像的主体形象、视频的动作和音乐节拍等多种素材无痛融合在一起。

专业级视频修复

SkyReels-V4支持对已有内容进行专业级修复，在不破坏整体结构的前提下，实现局部精准改动：

区域智能修复：精准替换视频中的主体、修改属性（如服装颜色）或更换背景。
元素智能移除：自动识别并去除水印、字幕、Logo，保持背景内容自然连贯。
参考引导修复：基于参考图像的风格一致性修复，确保编辑前后视觉统一。

全维度视频编辑

与追求“极致的真”的视频修复不同，全维度视频编辑追求的是“创造的自由”。SkyReels-V4支持随心改、自由改：

凭空增加素材：例如根据一张帽子图片，精准地给视频C位的舞者戴上帽子，并保持颜色和Logo一致。
删除视频元素：一键移除视频中的特定人物或元素，实现无缝衔接。
全局与运镜编辑：支持一键替换视频风格（全局编辑）和改变运镜（相机运动控制）。

高品质音频生成

SkyReels-V4内置了多语言语音合成、音效生成、背景音乐适配等能力，支持情感语音、歌词同步演唱等高阶玩法。其音频生成质量在信号清晰度、音色真实度、动态范围等硬指标上，达到了不输专业音频生成工具的水准。台词清晰且充满情绪表现力，环境音效（如敲击木质桌面的声音及回音）极为逼真。

双流架构，一体生成

SkyReels-V4之所以能解决“画面没声音”、“输入方式单一且编辑不灵活”、“画质和速度难兼得”三大痛点，全靠其底层的技术突破：

双流MMDiT架构：视频和音频两个分支并行，共享同一个多模态大语言模型（MLLM）编码器。画面和声音在模型内部联合生成，不再依赖后期拼凑。
双向交叉注意力与精准对齐：在Transformer模块中加入双向交叉注意力，配合RoPE频率缩放，在微秒级时间轴上精准对齐音视频，实现严丝合缝的同步。
双维拼接玩法：采用通道拼接+时序拼接。通道维度上将带噪视频、条件帧、遮罩叠在一起，将各种任务转化为“带掩码的修复类”任务；时序维度上将参考素材拼进生成序列前端，让模型学习风格和特征。
画质与速度的工程解法：采用先快速出低清全序列，再提取高清关键帧，最后用超分和插值模型补细节的策略。配合视频稀疏注意力（VSA）机制，大幅降低计算量，最终画面稳定在1080p、32帧、15秒的电影级水准。

坚持多模态原生对齐

在多模态赛道中，昆仑天工一直坚持自研多模态原生对齐。从早期的文生图，到SkyReels系列的视频生成，再到Mureka音乐模型，直到如今V4版本将音视频同步生成、编辑与inpainting统一进同一架构，音频正式从外挂能力变成了原生分支。

昆仑天工不仅在底层架构上死磕，还通过旗下DramaWave和FreeReels等短剧平台，将多模态能力真正落地到创作场景中。创作者可以在一个作品里调用视频生成、配乐、字幕和音画同步等全套能力，形成“用户使用-数据回流-模型迭代”的正向循环。

未来，团队还将继续攻克更长视频、更高分辨率（4K/8K）、跨语言创作及复杂场景音视频协同等难题，进一步降低推理成本，让这套全流程一体化的AI创作工具落到更多行业与场景中。

wsl-docs

探索

杀进全球榜 TOP2：国产视频模型黑马刚刚出现了

摘要

正文