Seedance 2.0：产业狂欢与娱乐至死

摘要

1) 一句话总结

Seedance 2.0 凭借强大的“全能参考”与精准的语义遵循能力，大幅降低了视频制作的工业门槛，推动了 AI 视频工作流的范式转移，并将引发大众消费级 AI 内容的全面爆发。

2) 核心要点

API 开放计划：火山引擎将于春节后正式开放 Seedance 2.0 的 API。
工作流范式转移：凭借极强的时序泛化能力，大幅降低对传统“首尾帧”控制技术的依赖，仅需文字和核心图像资产即可高效直出视频。
“全能参考”功能：具备极高的角色细节一致性与泛化能力，能将角色无缝融入不同风格（如特定光线、色调、景深）的场景中。
精准的语义遵循：支持精确到秒级的复杂动作指令（如武打招式拆解），动作连接合理，大幅降低抽卡成本。
审美与剪辑“外包”：模型提供包含构图、画质、剪辑（如快剪）和表演的整体解决方案，创作者可通过参考图或提示词直接套用目标审美与叙事节奏。
满足大众消费需求：其直出标准已能满足绝大部分短视频、短剧及网络广告等大众媒体消费市场的需求。
生产效率指数级提升：原本需要分镜、修图、剪辑等多步繁琐操作的流程，现简化为通过提示词直接生成，且开卡成功率极高。
核心竞争力转移：随着技术门槛趋近于零，创作者的核心挑战已从“工业制作水准”转向“拍什么”的创意与审美选择。

3) 风险与不足

分辨率限制：目前模型仅开放 720P 的解析度。
极限指令响应非完美：在精确到每一秒的极限动作测试中，虽然能满足大部分要求，但仍无法做到 100% 完美响应。
高端商业场景局限：在要求极高精确度和画面规格的严格商业场景下，AI 尚未完全抹平专业团队的能力，仍需专业人才介入。
行业内卷加剧：创作门槛降低和效率提升将导致行业价格与成本面临新的挑战。
内容过载与注意力稀缺：预计到 2026 年 AI 内容将史无前例地拥挤，低成本同质化内容不具备稀缺性，获取大众注意力的难度将大幅增加。

正文

“除了娱乐业没有其他行业” ——《娱乐至死》尼尔·波兹曼

一直在想怎么聊 Seedance 2.0。最近它实在太火，再加上春节之后，火山引擎就将开放 Seedance 2.0 的 API，届时应用量会进一步上升。

显然，对于这种量级的模型，常规的评测已经意义不大了。事实上，当我和团队第一次使用它时，只测了4-5个片段就停止了。因为当一个模型具备某些降维打击能力的时候，不用测太多，几个案例就足够感受到——就像 MJ v7 和 Veo2 发布时一样。

所以本文不是评测，而是聊聊：在体验几天之后，我们觉得 Seedance 2.0 的上限大概在什么位置，以及它对 AIGC 行业的影响有哪些。这篇文章没有教程，没有哭天喊地的炫酷案例，几乎是我个人的想法和絮叨。

核心观点

AI视频的工作流大概率会迈入新阶段。 注意，不是一刀切说以前的没用了，需要理性看待。
AI内容过载到达巅峰，注意力严重稀缺。 这是不是创作者的狂欢？是，但我们生产更多内容，不等于有更多人来看我们的内容，甚至可能相反。
广义内容的工业水准差异化几乎消失，但专业内容仍存在工业水准的差异。 Seedance 2.0 目前的上限，已经可以满足绝大部分内容场景的需要。

“足够”的 Seedance 2.0

首先，我有必要解释一下在开头引用《娱乐至死》的用意。这并非带有个人道德立场的判断，只是想澄清一个我自己看到的事实：

从2000年左右网络视频的流行开始，大众媒体消费内容的粗颗粒化、娱乐化、碎片化趋势开始加速，并在2010年左右开启的移动互联网时代达到前所未有的高峰。这一路上，从 YouTube 的业余摄影，到 B站的二创文化，到竖屏短视频信息流的发明，再到短剧，无一不在体现这种变化。

诚然，伟大的尼尔·波兹曼在几十年前就已经预见了今天的一切，但他未必想到今天的技术会让这种趋势如此登峰造极。

如今，对于主流的大众注意力消费市场而言，情绪和娱乐性的重要程度是高于对工业性的要求的。之所以要提这点，是因为有很多朋友好奇 Seedance 2.0 目前的上限能否满足商业和大众市场消费级的需求。我个人的观点是：大部分情况下，已经足够用了。

别再纠结什么 1080P 了，大部分用户对内容的需求并不在工业规格上。这种情况下，Seedance 2.0 不仅是够用，甚至某些时候“超出预期”。

当然，话不能说绝对，工业质量并非变得没有意义。以短剧市场为例，当进入到过饱和的竞争之后，还是会有很多制作精良的作品出来，但这已经是另一个话题。

相比 Veo2、Sora 之前的“还差一点”，Seedance 2.0 把 AI 原生视频直出的标准又往前迈了一步，捅破了这层窗户纸：在 Seedance 2.0 之后，进入大众媒体消费市场的门槛，几乎归零。

我自己对视频模型的关注点，其实一直只有两个：精确性和审美。下面就围绕它们详细聊聊。

精确性：慢慢告别“首尾帧”时代

前几天，我在朋友圈发了一条动态，感慨“首尾帧”的时代要结束了。几个小时后，整个 AIGC 圈都炸锅了。拿到内测的人，那晚没睡觉的居多。

澄清一下：说“首尾帧”的时代要结束了，并不是指这种技术以后就没用了（它还会大量存在，但用法会完全不一样），而是想表达：AI视频的工作流可能要告别上一个时代的范式了。

“首尾帧”正是上一个时代最典型的代表模式，因为它几乎是过去几年解决“精确性”的唯一无奈之举。图片是一个非常不稳定、缺乏连续性的资产，一锤子买卖，复用度很低。真正有连续性、高复用度的资产，一定是基于对象的（ID化），比如角色资产、场景资产。

之前很多模型已经开始有了参考功能（角色资产的雏形），但并没有大量普及到工业制作中，原因很简单：还不够好用。而精确性，恰恰是 Seedance 2.0 这次出圈的核心，它叫做：全能参考。

目前最完美的一致性

在做商业角度的工业生产时，以前的模型（包括 Banana Pro）在角色一致性上都差得很远。判断模型的一致性不难：把角色扔进去，反复抽卡，在不同角度、不同光线下，每次的“长相”是不是一致。

Seedance 2.0 在连续测试中，细节一致性出奇的高。但“像”只是最基础的一步。用 PS 也可以把头 P 到任何人身上，但没法用，因为光线、色调、景深、滤镜、白平衡等画质参数不对。所以 Seedance 2.0 最大的亮点其实是泛化能力。

震撼的泛化能力

我们尝试用“万能参考”让老人“进入”各种电影里。无论是韩国电影的灰暗压抑，还是港片武侠偏红的浓郁饱和，人物“进去”的时候都完美适配。面部布光、边缘光效、画面对比度与参考对象的融合极其自然。

这种无缝的角色资产融合能力太重要了。从个人体感来讲：之前没有任何一个图像或视频模型达到如此完美的光线融合。

这个特点在商业化场景里非常有用。比如想让老人演出水墨风格的动画片，传统流程需要先用图片模型炼制水墨设定，再处理首尾帧，费时费力甚至无解。而在 Seedance 2.0 中，效率逆天，直接爽翻。

动作精控与语义遵循

更离谱的是，我们甚至不太用得到再去出关键帧了。以前需要首尾帧来精控动作和分镜，主要是因为“AI生成的不合理”或“不是你想要的内容”。

对于第一个问题，Seedance 2.0 强到离谱的时序泛化能力，让影片的每一个动作都无比合理。比如武打戏和体育动作，它几乎不出错，抽卡成本很低。在一个轻功镜头中，对武侠动作的还原绝对是前无来者，甚至连脚踩在树枝上产生的微微晃动这种细节都拉满了。

对于第二个问题（精细化的指定动作），Seedance 2.0 的提示词语义遵循甚至比控制图片还方便。比如我们在武术场景里指定：

“主角出现在古装电影中，用武功和反派蒙面黑衣人过招。然后用轻功旋转身体连续飞踢周围的几个人。”

视频非常精确地还原了“旋转身体用脚攻击”的指令。我们甚至可以极限测试，精确到每一秒要出现的内容：

00:01–00:02 主角腾空而起，鹞子翻身接“青龙探爪”… 00:02–00:03 反派袖袍一震，暗器如雨散开… 00:03–00:04 主角落地滑步，“游龙步”贴地疾行… （以此类推，详细规定每一秒的招式拆解）

实测下来，只开了一次卡，虽然不能说是完美响应，但大部分的要求都满足到位了，并且实现了非常合理的动作连接。

因此，除了极个别场景依然需要手工定制图片，大部分的需求 Seedance 2.0 完全可以直出搞定。你只需要文字和核心图像资产，就可以迅速进入消费级内容市场。

审美：一切都回到“选择”

对于画质的担心大可不必，虽然目前仅开放 720P 的解析度，但是完全够用。审美从来都不是规格的问题，720P 是一个在性能和速度间很好的平衡。

由于“万能参考”的存在，任何你想参考的风格都可以有很好的延续。理论上，我们可以将审美“外包”，一切都源于你找到的参考。去单独测试这个模型的视觉审美几乎没什么意义，因为它的审美几乎就是“万物”，你的选择是唯一标准。

比如找一张具备冷峻、浅景深、画面颗粒感等特征的北欧风格分镜让它续写，你几乎看不出哪一张是原图。它完美还原了参照物本身的特质，电影柔化和颗粒感令人惊叹。真实和质感的关键点从来都不是“最清楚”，处在影像中的图像因为有连续性，大部分情况下其实是“不清楚的”。

除了视觉审美，Seedance 2.0 甚至可以“外包”剪辑和叙事的审美：

剪辑： 大部分情况下它完成的剪辑要比一般人出色得多，尤其是在快剪领域（如打斗镜头）。
叙事： 它可以根据提示词衍生完全不同氛围的风格。用同一张图分别衍生悲剧和喜剧，它不仅完成了情节，更整体承包了分镜设计和剪辑方式。悲剧案例中充满压迫感的高角度近距离特写，喜剧案例中明显更快节奏的剪辑和略显夸张的表情，都让人印象深刻。

综上，Seedance 2.0 在审美方面的表现有两个特点：

它提供的是一个包含了构图、画质、剪辑、表演的整体解决方案。
它把审美问题拉回了原点：你的选择。

你可以把任何一部电影或作品看成一组“内容模板”，直接套用它的审美。只有“选择”，是目前无法外包的。

行业影响：在爆炸中回到原点

梳理 Seedance 2.0 在技术角度带来的变化，简单概括就是：史无前例高效地生成精确、符合创作需求的影像；审美完全取决于创作者的选择。

基于此，这个模型对产业的影响可能有几点：

第一，创作效率指数级上升，甚至发生工作流的转移。 以一个15秒的镜头为例，原来的流程需要生成多张分镜、修图、开卡、生成短视频再剪辑。现在的流程只需要一段提示词反复开几次即可，且开卡率极高。这会导致新的行业内卷：价格、成本都会迎来新的挑战，对从业者来说既是机会也是问题。

第二，AI内容将史无前例地拥挤。 类似的论调在 Veo2、Sora 出现时都有过，但我认为这次不一样。因为 Seedance 2.0 是可以满足大部分商用和工业场景应用的。这次被提效的不仅仅是普通爱好者，而是整个行业。AI内容的大量爆发在2026年几乎是注定的，Seedance 2.0 点燃了这个节点。

第三，注意力争夺战加剧，专业能力依然有价值但门槛改变。 生产更多内容不等于有更多人看。低成本的 Meme 格式视频无论多么火爆，都没有跟随和模仿的价值，因为它不构成稀缺。在严格的商业场景下（极高精确度、画面规格要求），专业人才和技术依然有很大价值，AI 尚未完全抹平专业团队的能力。但对于短视频、短剧、网络广告等广义内容市场，Seedance 2.0 的完成度已经足够。大众对情绪的诉求远远大于工业精度，这种娱乐化带来的“相对粗糙”趋势几乎不可逆。

最简单的就是最难的

陈丹青老师在一段采访中说过：当他到了纽约，没有任何创作限制后，反而陷入焦虑——他不知道该画什么了。这让我想起《肖申克的救赎》里那段关于“限制”的经典台词。

有的时候，“无限”反而是最难掌控的。

Seedance 2.0 的出现似乎在把问题简单化：你只要有选择能力，有想法，就能拍片。但我不确定这是不是一个真的简单的处境。在我看来，“选择拍什么，选择审美”可能才是最难的。

工业水准从来都不是创作最关键的核心，想法才是。

Seedance 2.0 的出现带有某种很“本质”的意味。它把市场的供给量拉到了史无前例的高度，然后在需求侧把最核心的拷问呈现了出来。随着节后 API 的开放，我们将一起迎接这个 AI 内容彻底爆发的时代。

而现在的问题是：当什么都能拍的时候，我们拍什么？

作者：汗青，AI.TALK创始人，一个6岁开始学美术的AI创作者，也是厮混互联网圈16年的产品经理。愿景是寻找新技术与媒介艺术的结合方式。

wsl-docs

探索