摘要

1) 一句话总结 本文全面解析了 OpenAI 发布的文本生成视频模型 Sora 的技术原理、产品形态、商业应用价值及行业影响,指出其将大幅降低视频制作门槛,并带来视频生成领域的“GPT 时刻”。

2) 核心要点

  • 技术架构与突破:Sora 结合了扩散模型与 Transformer 模型(Diffusion Transformer),通过预测“时空补丁(spacetime patches)”而非文本 Token,突破了传统显卡与视频训练限制,可生成最长 60 秒的高画质、镜头连贯且物理规律稳定的视频。
  • 产品落地规划:预计在 3 到 6 个月内通过 ChatGPT 集成或 API 调用的方式逐步放开商用,不需要本地搭建。
  • 未来演进时间表:乐观估计 1 年后可生成 5-10 分钟视频,3-5 年内有望生成 30-60 分钟的长视频,并逐步融合音频能力实现完全的多模态。
  • 核心应用价值:Sora 将成为普通人表达能力的“综合延伸”,大幅降低视频制作成本,并可能催生动态生成游戏剧情、新闻视频等全新的人机交互方式,甚至提供生成已故亲人视频等情感寄托价值。
  • 商业变现路径:涵盖情感价值(娱乐/伴侣)、艺术价值(微电影)、内容价值(小说二创/广告/教学)、生态价值(Prompt/周边工具)以及降本增效(快速 MVP 验证/电影分镜)。
  • 行业竞争格局:OpenAI 目前领先业界半年到一年以上;Sora 的出现将使纯 Diffusion 方向的 AI 视频初创公司面临融资困难,迫使创业者转向视频编辑或基于 Sora 接口的应用开发。
  • 硬件与算力影响:视频生成将持续推高对算力和显卡的需求,预计未来芯片市场将打破单一垄断,迎来更多公司的参与和竞争。

3) 风险与不足(基于原文)

  • 深度伪造与诈骗风险:逼真的视频生成可能加剧诈骗问题,伪造与反伪造将成为长期攻防战(目前需依赖水印或画面中的逻辑瑕疵如“4条腿的蚂蚁”来鉴别)。
  • 版权侵权风险:虽然生成内容的版权大概率归创作者,但生成的作品本身存在侵犯他人版权的风险。
  • 音频生成能力缺失:目前 Sora 无法生成音频,主要受限于环境音效匹配、多声源叠加、场景融合及人物口型/表情对齐等技术难点。
  • 高昂的成本与耗时:当前生成视频的算力成本偏高且耗时较长(作者粗略预估半小时成本约 10 美元),未来可能面临使用次数限制或需要高阶订阅。
  • 国内算力瓶颈:中国大厂在追赶 OpenAI 时,面临算力尚不能完全自给自足的客观差距。

正文

很荣幸受王又又邀请,今天和她以及《宇宙探索编辑部》副导演吕启洋(Ash)一起聊聊了一下当前火爆的话题 Sora,看 Sora 如何改变我们的生活。

我把技术相关的一些问题整理成了文字,希望能够帮助大家更好地理解 Sora。我将问题大约整理成了四类:

  1. Sora 的技术科普
  2. Sora 产品相关问题
  3. Sora 的价值和应用
  4. Sora 有关的八卦闲聊

注意,这里的回答都是我个人的观点,一部分也借鉴了大家在帖子中讨论的结果,很多答案不一定准确,仅供参考。也欢迎指正其中错误或者提出不同观点。

Sora 的技术科普

Sora 是什么?能干什么?

简单来说,Sora 是一种能用文本生成最长 60 秒视频的技术,也可以用来生成图片,因为图片本质上是一帧的视频。

Sora 跟之前的 AI 视频生成工具有什么升级?跟市面上其他的例如 Runway、Pika、SVD 这些 AI 视频生成工具有什么区别?

之所以 Sora 引发极大关注,主要在于它生成视频质量要比之前的高很多,不仅时间最长能到 60 秒,而且它可以支持镜头切换、画面人物和背景稳定、很高画质。

Pika 是基于 Diffusion 模型,把图片和视频训练成毫无意义的马赛克图片,再从空白马赛克图片能反向扩散生成图片和视频,有两种主要模式,一种是基于图片关键帧扩展成视频,例如已有视频的风格变换;一种是对视频的训练,但是由于显卡限制,只能一次训练特定分辨率的几秒视频,一次也只能生成几秒钟的视频。

LLM、ChatGPT 是 Transformer 模型,预测 Token 生成文本内容,Token 可以理解为字和词。

Sora 则是基于 Diffusion Transformer 模型,结合了扩散模型和 Transformer 模型,不过它是预测生成的不是文本 Token,而是“时空补丁(spacetime patches) ”,可以理解为一个几帧(一秒不到)的视频的一个小块。

主要优势是训练的时候不受视频和显卡约束,生成的时候也更加多样,可以灵活组合时空补丁。

使用成本:现在可以生成 60 秒视频,60 秒视频的成本是多少?对算力有什么要求?

现在”DALL-E 3 HD Image 价格 0.05/秒。

Sora 没有公布相关数据,纯猜测:Sora 的推理大约需要 ~8xA100,生成视频预估一秒一分钟,半小时成本约 ~$10”

有可能可以生成音乐(音频)么?如果不行难点在哪?

未来应该是可以的,现在没有是因为:

  • 需要根据视频中的环境、物体类型、物体之间的碰撞、所在位置发出不同的声音
  • 需要多种声源叠加
  • 音乐不仅要质量高,还需要和视频中的场景融合
  • 人物对白需要和人物的位置、口型、表情对齐

Sora 产品相关问题

是否需要建模还是通过其他方式使用?什么时候能落地商用?

不需要本地搭建,预计会提供两种方式:ChatGPT 集成、API 调用;但生成视频的成本偏高、耗时也比较长;可能会限制次数或者提供更高一档的订阅。

预计三个月到半年内会逐步放开。

在不同的时间使用相同的要求语,会生成相同的视频吗?能支持后续微调修改或者输入更确定的边界条件生成么?当前模型架构有能力支持这些么?

同样的提示词每次都不会相同,但是 seed 相同应该可以做到相似;

Sora 支持图片生成视频和视频生成视频,但人物是否可以做到一致还需要产品发布后才能下结论。

什么时候可以生成更长时间的视频,比如 30 分钟、60 分钟甚至更长?

生成视频时间越长对显存要求越高,但是按照现在技术发展的速度,乐观估计 1 年后应该可以到 5-10 分钟,30 分钟 60 分钟预计在 3-5 年的时间。

生成视频的版权归谁?

根据图片生成的规则来推测,应该是归创作者所有,但是生成的作品本身不能侵权。

虚拟 vs 现实:如何判断那些视频是拍的?哪些是 Sora 做的?以后还有啥会是真的呢?深度伪造问题:会不会更容易被诈骗,如何反诈?

现在的视频都有水印,未来应该会有检测工具。

另外仔细看是能看出视频中不符合逻辑的地方,例如蚂蚁只有 4 条腿,人的手会变形等等。

我们其实早已经历过:照片不是真的、电视不是真的、电影不是真的,人民群众的鉴别水平也会同步提升。

伪造和鉴别伪造是长期攻防战。

Sora 接下来的发展前景演进趋势?

  1. 成本降低(更快更便宜);
  2. 质量提升(时长、画质、镜头切换、一致性、符合物理规律);
  3. 新的能力:声音、和 GPT 的融合,完全的多模态;

能不能用来做动画片?

短片完全没问题,复杂场景和更长时间的还不行,未来可期。

Sora 的价值和应用

Sora 有哪些应用场景?实用性有多大?商业应用价值?

我从四个方面总结了 Sora 的价值和应用:

  1. 首先它能放大了普通人的表达能力,张小龙说汽车是双腿的延伸,ChatGPT 就是双手的延伸,Sora 就是我们表达的综合延伸,也就是传说中的“嘴替”

这意味着我们可以更好的来表达自己的想法,不再受限于自己的写作能力、画画能力、摄影能力、视频剪辑能力,甚至是演讲能力。

  1. Sora 是一种低成本的视频工具

Sora 将极大的降低了视频制作的成本,这意味着更多的人可以用更低的成本来制作视频,这对于视频创作者来说是一个很大的利好。

  1. 新的人机交互方式,动态生成视频

Sora 已经演示了生成我的世界这样游戏的能力,也许未来我们可以用 Sora 来动态生成游戏的剧情、任务、场景。另外,我们也可以让 Sora 动态对新闻、文章生成视频,而不需要去阅读。

  1. 情感上的寄托

生成已故亲人的视频,保留他们的记忆。数字伴侣。

Sora 赚钱逻辑在哪里?

取决于围绕 Sora 创造的价值:

  • 情感价值:卖课缓解焦虑、提供娱乐、情感寄托
  • 艺术价值:微电影
  • 内容价值:小说二创、卖素材、教学、讲故事、游戏生成、广告
  • 生态价值:Prompt、更加易用小工具、绕过限制
  • 降本增效:快速 MVP 验证想法、广告、电商、电影分镜

普通人怎么用好?如何利用 Sora 做点副业?

  • 用起来,学会怎么用,知道它能做什么,边界在哪里
  • 选一个适合自己的方向,提前准备好相关素材或者开发项目
  • 技术人员可以准备开始筹备产品、工具:收集 Prompt、基于 API 二次开发

Sora 有关的八卦闲聊

名字真的是起源于天元突破的 op 空色デイズ吗?

我倾向于是。

现在的热度是 (为了融资、股价) 的概念炒作?还是真实有用的?

真实有用,可以马上应用到短视频,例如 OpenAI 在 Tiktok 的账号,视频以假乱真

您在网上看到或者听说的一些比较夸张脱离实际的说法?

  • “Sora”关键原材料之---马来酰亚胺树脂来自于四川绵阳一家公司。
  • Sora 懂物理
  • Sora 连接了游戏引擎
  • Sora 是 AGI 的关键里程碑,几年内就能实现 AGI

在全球顶尖公司之间 Sora 的竞争力如何?中国在这个领域的发展情况?在中国做这个的公司有哪些?中国和欧美的差距在哪里?

OpenAI 已经投入了一年多,领先业界半年到一年,甚至更多,具体体现在:

  • 技术的领先,目前技术还没公开,其他公司要破解需要时间
  • 大模型的优势,他们有最先进的模型可以帮助训练,例如自动生成高质量的视频标注 中国应该很快能追赶上——人才、数据、算力都有,但是只有少数大厂才有机会,对人才、数据、算力要求都太高

目前不清楚是否中国公司已经有做这个方向的,但是字节、阿里、腾讯、百度在 AI 视频领域都有深厚积累

中国和欧美的差距主要在于对 AI 技术方向上的把握,但这也不仅仅是中国的问题,目前全世界所有其他公司都跟随 OpenAI 的步伐;另外就是算力上还不能完全自给自足。

新一次产业革命?有网友指出,短短几年内,被追捧的高热度“划时代”技术有 web3、区块链、元宇宙、谷歌眼镜、波士顿机器人、vision pro、chatgpt 等等,这次确认要再次划时代了吗?

看怎么定义吧,从文本生成视频领域来说,一定是划时代的!真正的文本生成视频领域的 GPT 时刻。

  • ChatGPT 文本生成
  • Stable Diffusion、MIdJourney、DALL-E 图像生成
  • Sora 文本生成视频

Sora 在硅谷的体感热度?在业内的真实反响?目前 AI 视频生成赛道的创业者、投资者们心态如何,将会如何应对?

  • 反响热烈,正面评价居多
  • 预计 Diffusion 方向会比较难拿到投资
  • 创业者需要重新考虑方向,例如视频编辑、转向基于 Sora 的接口开发应用

跟芯片有什么关系?

未来几年视频生成会继续热门,继续需要大量的算力,也就是需要大量的显卡,但未来显卡应该不会只有 NVIDIA 一家独大,应该会有更多的公司参与进来,这样的话,显卡的供应会更充足,价格会更加合理,性能也会更高。

总结

以上就是今天访谈的主要内容。

另外以上很多内容总结自我在 Twitter 和微博上开的讨论帖,很多观点(例如 Sora 生成亲人视频)确实是我之前没有想到的,这也算是将大家讨论的内容的一个总结。谢谢各位的参与!

X 讨论帖:https://twitter.com/dotey/status/1759861034708251116 微博讨论帖:https://weibo.com/1727858283/O1tUdnbt8

完整的视频地址在:

关联主题