摘要

1) 一句话总结

Seedance 2.0 凭借强大的“全能参考”与精准的语义遵循能力,大幅降低了视频制作的工业门槛,推动了 AI 视频工作流的范式转移,并将引发大众消费级 AI 内容的全面爆发。

2) 核心要点

  • API 开放计划:火山引擎将于春节后正式开放 Seedance 2.0 的 API。
  • 工作流范式转移:凭借极强的时序泛化能力,大幅降低对传统“首尾帧”控制技术的依赖,仅需文字和核心图像资产即可高效直出视频。
  • “全能参考”功能:具备极高的角色细节一致性与泛化能力,能将角色无缝融入不同风格(如特定光线、色调、景深)的场景中。
  • 精准的语义遵循:支持精确到秒级的复杂动作指令(如武打招式拆解),动作连接合理,大幅降低抽卡成本。
  • 审美与剪辑“外包”:模型提供包含构图、画质、剪辑(如快剪)和表演的整体解决方案,创作者可通过参考图或提示词直接套用目标审美与叙事节奏。
  • 满足大众消费需求:其直出标准已能满足绝大部分短视频、短剧及网络广告等大众媒体消费市场的需求。
  • 生产效率指数级提升:原本需要分镜、修图、剪辑等多步繁琐操作的流程,现简化为通过提示词直接生成,且开卡成功率极高。
  • 核心竞争力转移:随着技术门槛趋近于零,创作者的核心挑战已从“工业制作水准”转向“拍什么”的创意与审美选择。

3) 风险与不足

  • 分辨率限制:目前模型仅开放 720P 的解析度。
  • 极限指令响应非完美:在精确到每一秒的极限动作测试中,虽然能满足大部分要求,但仍无法做到 100% 完美响应。
  • 高端商业场景局限:在要求极高精确度和画面规格的严格商业场景下,AI 尚未完全抹平专业团队的能力,仍需专业人才介入。
  • 行业内卷加剧:创作门槛降低和效率提升将导致行业价格与成本面临新的挑战。
  • 内容过载与注意力稀缺:预计到 2026 年 AI 内容将史无前例地拥挤,低成本同质化内容不具备稀缺性,获取大众注意力的难度将大幅增加。

正文

“除了娱乐业没有其他行业” ——《娱乐至死》尼尔·波兹曼

一直在想怎么聊 Seedance 2.0。最近它实在太火,再加上春节之后,火山引擎就将开放 Seedance 2.0 的 API,届时应用量会进一步上升。

显然,对于这种量级的模型,常规的评测已经意义不大了。事实上,当我和团队第一次使用它时,只测了4-5个片段就停止了。因为当一个模型具备某些降维打击能力的时候,不用测太多,几个案例就足够感受到——就像 MJ v7 和 Veo2 发布时一样。

所以本文不是评测,而是聊聊:在体验几天之后,我们觉得 Seedance 2.0 的上限大概在什么位置,以及它对 AIGC 行业的影响有哪些。这篇文章没有教程,没有哭天喊地的炫酷案例,几乎是我个人的想法和絮叨。

核心观点

  • AI视频的工作流大概率会迈入新阶段。 注意,不是一刀切说以前的没用了,需要理性看待。
  • AI内容过载到达巅峰,注意力严重稀缺。 这是不是创作者的狂欢?是,但我们生产更多内容,不等于有更多人来看我们的内容,甚至可能相反。
  • 广义内容的工业水准差异化几乎消失,但专业内容仍存在工业水准的差异。 Seedance 2.0 目前的上限,已经可以满足绝大部分内容场景的需要。

“足够”的 Seedance 2.0

首先,我有必要解释一下在开头引用《娱乐至死》的用意。这并非带有个人道德立场的判断,只是想澄清一个我自己看到的事实:

从2000年左右网络视频的流行开始,大众媒体消费内容的粗颗粒化、娱乐化、碎片化趋势开始加速,并在2010年左右开启的移动互联网时代达到前所未有的高峰。这一路上,从 YouTube 的业余摄影,到 B站的二创文化,到竖屏短视频信息流的发明,再到短剧,无一不在体现这种变化。

诚然,伟大的尼尔·波兹曼在几十年前就已经预见了今天的一切,但他未必想到今天的技术会让这种趋势如此登峰造极。

如今,对于主流的大众注意力消费市场而言,情绪和娱乐性的重要程度是高于对工业性的要求的。之所以要提这点,是因为有很多朋友好奇 Seedance 2.0 目前的上限能否满足商业和大众市场消费级的需求。我个人的观点是:大部分情况下,已经足够用了。

别再纠结什么 1080P 了,大部分用户对内容的需求并不在工业规格上。这种情况下,Seedance 2.0 不仅是够用,甚至某些时候“超出预期”。

当然,话不能说绝对,工业质量并非变得没有意义。以短剧市场为例,当进入到过饱和的竞争之后,还是会有很多制作精良的作品出来,但这已经是另一个话题。

相比 Veo2、Sora 之前的“还差一点”,Seedance 2.0 把 AI 原生视频直出的标准又往前迈了一步,捅破了这层窗户纸:在 Seedance 2.0 之后,进入大众媒体消费市场的门槛,几乎归零。

我自己对视频模型的关注点,其实一直只有两个:精确性审美。下面就围绕它们详细聊聊。

精确性:慢慢告别“首尾帧”时代

前几天,我在朋友圈发了一条动态,感慨“首尾帧”的时代要结束了。几个小时后,整个 AIGC 圈都炸锅了。拿到内测的人,那晚没睡觉的居多。

澄清一下:说“首尾帧”的时代要结束了,并不是指这种技术以后就没用了(它还会大量存在,但用法会完全不一样),而是想表达:AI视频的工作流可能要告别上一个时代的范式了。

“首尾帧”正是上一个时代最典型的代表模式,因为它几乎是过去几年解决“精确性”的唯一无奈之举。图片是一个非常不稳定、缺乏连续性的资产,一锤子买卖,复用度很低。真正有连续性、高复用度的资产,一定是基于对象的(ID化),比如角色资产、场景资产。

之前很多模型已经开始有了参考功能(角色资产的雏形),但并没有大量普及到工业制作中,原因很简单:还不够好用。而精确性,恰恰是 Seedance 2.0 这次出圈的核心,它叫做:全能参考

目前最完美的一致性

在做商业角度的工业生产时,以前的模型(包括 Banana Pro)在角色一致性上都差得很远。判断模型的一致性不难:把角色扔进去,反复抽卡,在不同角度、不同光线下,每次的“长相”是不是一致。

Seedance 2.0 在连续测试中,细节一致性出奇的高。但“像”只是最基础的一步。用 PS 也可以把头 P 到任何人身上,但没法用,因为光线、色调、景深、滤镜、白平衡等画质参数不对。所以 Seedance 2.0 最大的亮点其实是泛化能力。

震撼的泛化能力

我们尝试用“万能参考”让老人“进入”各种电影里。无论是韩国电影的灰暗压抑,还是港片武侠偏红的浓郁饱和,人物“进去”的时候都完美适配。面部布光、边缘光效、画面对比度与参考对象的融合极其自然。

这种无缝的角色资产融合能力太重要了。从个人体感来讲:之前没有任何一个图像或视频模型达到如此完美的光线融合。

这个特点在商业化场景里非常有用。比如想让老人演出水墨风格的动画片,传统流程需要先用图片模型炼制水墨设定,再处理首尾帧,费时费力甚至无解。而在 Seedance 2.0 中,效率逆天,直接爽翻。

动作精控与语义遵循

更离谱的是,我们甚至不太用得到再去出关键帧了。以前需要首尾帧来精控动作和分镜,主要是因为“AI生成的不合理”或“不是你想要的内容”。

对于第一个问题,Seedance 2.0 强到离谱的时序泛化能力,让影片的每一个动作都无比合理。比如武打戏和体育动作,它几乎不出错,抽卡成本很低。在一个轻功镜头中,对武侠动作的还原绝对是前无来者,甚至连脚踩在树枝上产生的微微晃动这种细节都拉满了。

对于第二个问题(精细化的指定动作),Seedance 2.0 的提示词语义遵循甚至比控制图片还方便。比如我们在武术场景里指定:

“主角出现在古装电影中,用武功和反派蒙面黑衣人过招。然后用轻功旋转身体连续飞踢周围的几个人。”

视频非常精确地还原了“旋转身体用脚攻击”的指令。我们甚至可以极限测试,精确到每一秒要出现的内容:

00:01–00:02 主角腾空而起,鹞子翻身接“青龙探爪”… 00:02–00:03 反派袖袍一震,暗器如雨散开… 00:03–00:04 主角落地滑步,“游龙步”贴地疾行… (以此类推,详细规定每一秒的招式拆解)

实测下来,只开了一次卡,虽然不能说是完美响应,但大部分的要求都满足到位了,并且实现了非常合理的动作连接。

因此,除了极个别场景依然需要手工定制图片,大部分的需求 Seedance 2.0 完全可以直出搞定。你只需要文字和核心图像资产,就可以迅速进入消费级内容市场。

审美:一切都回到“选择”

对于画质的担心大可不必,虽然目前仅开放 720P 的解析度,但是完全够用。审美从来都不是规格的问题,720P 是一个在性能和速度间很好的平衡。

由于“万能参考”的存在,任何你想参考的风格都可以有很好的延续。理论上,我们可以将审美“外包”,一切都源于你找到的参考。去单独测试这个模型的视觉审美几乎没什么意义,因为它的审美几乎就是“万物”,你的选择是唯一标准。

比如找一张具备冷峻、浅景深、画面颗粒感等特征的北欧风格分镜让它续写,你几乎看不出哪一张是原图。它完美还原了参照物本身的特质,电影柔化和颗粒感令人惊叹。真实和质感的关键点从来都不是“最清楚”,处在影像中的图像因为有连续性,大部分情况下其实是“不清楚的”。

除了视觉审美,Seedance 2.0 甚至可以“外包”剪辑和叙事的审美:

  • 剪辑: 大部分情况下它完成的剪辑要比一般人出色得多,尤其是在快剪领域(如打斗镜头)。
  • 叙事: 它可以根据提示词衍生完全不同氛围的风格。用同一张图分别衍生悲剧和喜剧,它不仅完成了情节,更整体承包了分镜设计和剪辑方式。悲剧案例中充满压迫感的高角度近距离特写,喜剧案例中明显更快节奏的剪辑和略显夸张的表情,都让人印象深刻。

综上,Seedance 2.0 在审美方面的表现有两个特点:

  1. 它提供的是一个包含了构图、画质、剪辑、表演的整体解决方案。
  2. 它把审美问题拉回了原点:你的选择

你可以把任何一部电影或作品看成一组“内容模板”,直接套用它的审美。只有“选择”,是目前无法外包的。

行业影响:在爆炸中回到原点

梳理 Seedance 2.0 在技术角度带来的变化,简单概括就是:史无前例高效地生成精确、符合创作需求的影像;审美完全取决于创作者的选择。

基于此,这个模型对产业的影响可能有几点:

第一,创作效率指数级上升,甚至发生工作流的转移。 以一个15秒的镜头为例,原来的流程需要生成多张分镜、修图、开卡、生成短视频再剪辑。现在的流程只需要一段提示词反复开几次即可,且开卡率极高。这会导致新的行业内卷:价格、成本都会迎来新的挑战,对从业者来说既是机会也是问题。

第二,AI内容将史无前例地拥挤。 类似的论调在 Veo2、Sora 出现时都有过,但我认为这次不一样。因为 Seedance 2.0 是可以满足大部分商用和工业场景应用的。这次被提效的不仅仅是普通爱好者,而是整个行业。AI内容的大量爆发在2026年几乎是注定的,Seedance 2.0 点燃了这个节点。

第三,注意力争夺战加剧,专业能力依然有价值但门槛改变。 生产更多内容不等于有更多人看。低成本的 Meme 格式视频无论多么火爆,都没有跟随和模仿的价值,因为它不构成稀缺。 在严格的商业场景下(极高精确度、画面规格要求),专业人才和技术依然有很大价值,AI 尚未完全抹平专业团队的能力。但对于短视频、短剧、网络广告等广义内容市场,Seedance 2.0 的完成度已经足够。大众对情绪的诉求远远大于工业精度,这种娱乐化带来的“相对粗糙”趋势几乎不可逆。

最简单的就是最难的

陈丹青老师在一段采访中说过:当他到了纽约,没有任何创作限制后,反而陷入焦虑——他不知道该画什么了。这让我想起《肖申克的救赎》里那段关于“限制”的经典台词。

有的时候,“无限”反而是最难掌控的。

Seedance 2.0 的出现似乎在把问题简单化:你只要有选择能力,有想法,就能拍片。但我不确定这是不是一个真的简单的处境。在我看来,“选择拍什么,选择审美”可能才是最难的。

工业水准从来都不是创作最关键的核心,想法才是。

Seedance 2.0 的出现带有某种很“本质”的意味。它把市场的供给量拉到了史无前例的高度,然后在需求侧把最核心的拷问呈现了出来。随着节后 API 的开放,我们将一起迎接这个 AI 内容彻底爆发的时代。

而现在的问题是:当什么都能拍的时候,我们拍什么?


作者:汗青,AI.TALK创始人,一个6岁开始学美术的AI创作者,也是厮混互联网圈16年的产品经理。愿景是寻找新技术与媒介艺术的结合方式。

关联主题