Sora 将如何改变我们的生活？

摘要

1) 一句话总结 本文全面解析了 OpenAI 发布的文本生成视频模型 Sora 的技术原理、产品形态、商业应用价值及行业影响，指出其将大幅降低视频制作门槛，并带来视频生成领域的“GPT 时刻”。

2) 核心要点

技术架构与突破：Sora 结合了扩散模型与 Transformer 模型（Diffusion Transformer），通过预测“时空补丁（spacetime patches）”而非文本 Token，突破了传统显卡与视频训练限制，可生成最长 60 秒的高画质、镜头连贯且物理规律稳定的视频。
产品落地规划：预计在 3 到 6 个月内通过 ChatGPT 集成或 API 调用的方式逐步放开商用，不需要本地搭建。
未来演进时间表：乐观估计 1 年后可生成 5-10 分钟视频，3-5 年内有望生成 30-60 分钟的长视频，并逐步融合音频能力实现完全的多模态。
核心应用价值：Sora 将成为普通人表达能力的“综合延伸”，大幅降低视频制作成本，并可能催生动态生成游戏剧情、新闻视频等全新的人机交互方式，甚至提供生成已故亲人视频等情感寄托价值。
商业变现路径：涵盖情感价值（娱乐/伴侣）、艺术价值（微电影）、内容价值（小说二创/广告/教学）、生态价值（Prompt/周边工具）以及降本增效（快速 MVP 验证/电影分镜）。
行业竞争格局：OpenAI 目前领先业界半年到一年以上；Sora 的出现将使纯 Diffusion 方向的 AI 视频初创公司面临融资困难，迫使创业者转向视频编辑或基于 Sora 接口的应用开发。
硬件与算力影响：视频生成将持续推高对算力和显卡的需求，预计未来芯片市场将打破单一垄断，迎来更多公司的参与和竞争。

3) 风险与不足（基于原文）

深度伪造与诈骗风险：逼真的视频生成可能加剧诈骗问题，伪造与反伪造将成为长期攻防战（目前需依赖水印或画面中的逻辑瑕疵如“4条腿的蚂蚁”来鉴别）。
版权侵权风险：虽然生成内容的版权大概率归创作者，但生成的作品本身存在侵犯他人版权的风险。
音频生成能力缺失：目前 Sora 无法生成音频，主要受限于环境音效匹配、多声源叠加、场景融合及人物口型/表情对齐等技术难点。
高昂的成本与耗时：当前生成视频的算力成本偏高且耗时较长（作者粗略预估半小时成本约 10 美元），未来可能面临使用次数限制或需要高阶订阅。
国内算力瓶颈：中国大厂在追赶 OpenAI 时，面临算力尚不能完全自给自足的客观差距。

正文

很荣幸受王又又邀请，今天和她以及《宇宙探索编辑部》副导演吕启洋（Ash）一起聊聊了一下当前火爆的话题 Sora，看 Sora 如何改变我们的生活。

我把技术相关的一些问题整理成了文字，希望能够帮助大家更好地理解 Sora。我将问题大约整理成了四类：

Sora 的技术科普
Sora 产品相关问题
Sora 的价值和应用
Sora 有关的八卦闲聊

注意，这里的回答都是我个人的观点，一部分也借鉴了大家在帖子中讨论的结果，很多答案不一定准确，仅供参考。也欢迎指正其中错误或者提出不同观点。

Sora 的技术科普

Sora 是什么？能干什么？

简单来说，Sora 是一种能用文本生成最长 60 秒视频的技术，也可以用来生成图片，因为图片本质上是一帧的视频。

Sora 跟之前的 AI 视频生成工具有什么升级？跟市面上其他的例如 Runway、Pika、SVD 这些 AI 视频生成工具有什么区别？

之所以 Sora 引发极大关注，主要在于它生成视频质量要比之前的高很多，不仅时间最长能到 60 秒，而且它可以支持镜头切换、画面人物和背景稳定、很高画质。

Pika 是基于 Diffusion 模型，把图片和视频训练成毫无意义的马赛克图片，再从空白马赛克图片能反向扩散生成图片和视频，有两种主要模式，一种是基于图片关键帧扩展成视频，例如已有视频的风格变换；一种是对视频的训练，但是由于显卡限制，只能一次训练特定分辨率的几秒视频，一次也只能生成几秒钟的视频。

LLM、ChatGPT 是 Transformer 模型，预测 Token 生成文本内容，Token 可以理解为字和词。

Sora 则是基于 Diffusion Transformer 模型，结合了扩散模型和 Transformer 模型，不过它是预测生成的不是文本 Token，而是“时空补丁（spacetime patches） ”，可以理解为一个几帧（一秒不到）的视频的一个小块。

主要优势是训练的时候不受视频和显卡约束，生成的时候也更加多样，可以灵活组合时空补丁。

使用成本：现在可以生成 60 秒视频，60 秒视频的成本是多少？对算力有什么要求？

现在”DALL-E 3 HD Image 价格 $0.08 ； R u n w a y G e n - 2 价格是$ 0.05/秒。

Sora 没有公布相关数据，纯猜测：Sora 的推理大约需要 ~8xA100，生成视频预估一秒一分钟，半小时成本约 ~$10”

有可能可以生成音乐（音频）么？如果不行难点在哪？

未来应该是可以的，现在没有是因为：

需要根据视频中的环境、物体类型、物体之间的碰撞、所在位置发出不同的声音
需要多种声源叠加
音乐不仅要质量高，还需要和视频中的场景融合
人物对白需要和人物的位置、口型、表情对齐

Sora 产品相关问题

是否需要建模还是通过其他方式使用？什么时候能落地商用？

不需要本地搭建，预计会提供两种方式：ChatGPT 集成、API 调用；但生成视频的成本偏高、耗时也比较长；可能会限制次数或者提供更高一档的订阅。

预计三个月到半年内会逐步放开。

在不同的时间使用相同的要求语，会生成相同的视频吗？能支持后续微调修改或者输入更确定的边界条件生成么？当前模型架构有能力支持这些么？

同样的提示词每次都不会相同，但是 seed 相同应该可以做到相似；

Sora 支持图片生成视频和视频生成视频，但人物是否可以做到一致还需要产品发布后才能下结论。

什么时候可以生成更长时间的视频，比如 30 分钟、60 分钟甚至更长？

生成视频时间越长对显存要求越高，但是按照现在技术发展的速度，乐观估计 1 年后应该可以到 5-10 分钟，30 分钟 60 分钟预计在 3-5 年的时间。

生成视频的版权归谁？

根据图片生成的规则来推测，应该是归创作者所有，但是生成的作品本身不能侵权。

虚拟 vs 现实：如何判断那些视频是拍的？哪些是 Sora 做的？以后还有啥会是真的呢？深度伪造问题：会不会更容易被诈骗，如何反诈？

现在的视频都有水印，未来应该会有检测工具。

另外仔细看是能看出视频中不符合逻辑的地方，例如蚂蚁只有 4 条腿，人的手会变形等等。

我们其实早已经历过：照片不是真的、电视不是真的、电影不是真的，人民群众的鉴别水平也会同步提升。

伪造和鉴别伪造是长期攻防战。

Sora 接下来的发展前景演进趋势？

成本降低（更快更便宜）；
质量提升（时长、画质、镜头切换、一致性、符合物理规律）；
新的能力：声音、和 GPT 的融合，完全的多模态；

能不能用来做动画片？

短片完全没问题，复杂场景和更长时间的还不行，未来可期。

Sora 的价值和应用

Sora 有哪些应用场景？实用性有多大？商业应用价值？

我从四个方面总结了 Sora 的价值和应用：

首先它能放大了普通人的表达能力，张小龙说汽车是双腿的延伸，ChatGPT 就是双手的延伸，Sora 就是我们表达的综合延伸，也就是传说中的“嘴替”

这意味着我们可以更好的来表达自己的想法，不再受限于自己的写作能力、画画能力、摄影能力、视频剪辑能力，甚至是演讲能力。

Sora 是一种低成本的视频工具

Sora 将极大的降低了视频制作的成本，这意味着更多的人可以用更低的成本来制作视频，这对于视频创作者来说是一个很大的利好。

新的人机交互方式，动态生成视频

Sora 已经演示了生成我的世界这样游戏的能力，也许未来我们可以用 Sora 来动态生成游戏的剧情、任务、场景。另外，我们也可以让 Sora 动态对新闻、文章生成视频，而不需要去阅读。

情感上的寄托

生成已故亲人的视频，保留他们的记忆。数字伴侣。

Sora 赚钱逻辑在哪里？

取决于围绕 Sora 创造的价值：

情感价值：卖课缓解焦虑、提供娱乐、情感寄托
艺术价值：微电影
内容价值：小说二创、卖素材、教学、讲故事、游戏生成、广告
生态价值：Prompt、更加易用小工具、绕过限制
降本增效：快速 MVP 验证想法、广告、电商、电影分镜

普通人怎么用好？如何利用 Sora 做点副业？

用起来，学会怎么用，知道它能做什么，边界在哪里
选一个适合自己的方向，提前准备好相关素材或者开发项目
技术人员可以准备开始筹备产品、工具：收集 Prompt、基于 API 二次开发

Sora 有关的八卦闲聊

名字真的是起源于天元突破的 op 空色デイズ吗？

我倾向于是。

现在的热度是 (为了融资、股价) 的概念炒作？还是真实有用的？

真实有用，可以马上应用到短视频，例如 OpenAI 在 Tiktok 的账号，视频以假乱真

您在网上看到或者听说的一些比较夸张脱离实际的说法？

“Sora”关键原材料之---马来酰亚胺树脂来自于四川绵阳一家公司。
Sora 懂物理
Sora 连接了游戏引擎
Sora 是 AGI 的关键里程碑，几年内就能实现 AGI

在全球顶尖公司之间 Sora 的竞争力如何？中国在这个领域的发展情况？在中国做这个的公司有哪些？中国和欧美的差距在哪里？

OpenAI 已经投入了一年多，领先业界半年到一年，甚至更多，具体体现在：

技术的领先，目前技术还没公开，其他公司要破解需要时间
大模型的优势，他们有最先进的模型可以帮助训练，例如自动生成高质量的视频标注中国应该很快能追赶上——人才、数据、算力都有，但是只有少数大厂才有机会，对人才、数据、算力要求都太高

目前不清楚是否中国公司已经有做这个方向的，但是字节、阿里、腾讯、百度在 AI 视频领域都有深厚积累

中国和欧美的差距主要在于对 AI 技术方向上的把握，但这也不仅仅是中国的问题，目前全世界所有其他公司都跟随 OpenAI 的步伐；另外就是算力上还不能完全自给自足。

新一次产业革命？有网友指出，短短几年内，被追捧的高热度“划时代”技术有 web3、区块链、元宇宙、谷歌眼镜、波士顿机器人、vision pro、chatgpt 等等，这次确认要再次划时代了吗？

看怎么定义吧，从文本生成视频领域来说，一定是划时代的！真正的文本生成视频领域的 GPT 时刻。

ChatGPT 文本生成
Stable Diffusion、MIdJourney、DALL-E 图像生成
Sora 文本生成视频

Sora 在硅谷的体感热度？在业内的真实反响？目前 AI 视频生成赛道的创业者、投资者们心态如何，将会如何应对？

反响热烈，正面评价居多
预计 Diffusion 方向会比较难拿到投资
创业者需要重新考虑方向，例如视频编辑、转向基于 Sora 的接口开发应用

跟芯片有什么关系？

未来几年视频生成会继续热门，继续需要大量的算力，也就是需要大量的显卡，但未来显卡应该不会只有 NVIDIA 一家独大，应该会有更多的公司参与进来，这样的话，显卡的供应会更充足，价格会更加合理，性能也会更高。

总结

以上就是今天访谈的主要内容。

另外以上很多内容总结自我在 Twitter 和微博上开的讨论帖，很多观点（例如 Sora 生成亲人视频）确实是我之前没有想到的，这也算是将大家讨论的内容的一个总结。谢谢各位的参与！

X 讨论帖：https://twitter.com/dotey/status/1759861034708251116 微博讨论帖：https://weibo.com/1727858283/O1tUdnbt8

完整的视频地址在：

wsl-docs

探索