Sora2之后，又来了个全新的影视级AI视频模型，它的名字，叫GAGA。

摘要

1) 一句话总结 国内团队Sand.ai正式上线了全新的音画同步AI视频模型GAGA-1，主打影视级带台词的人物表演生成，目前已开放免费使用。

2) 关键要点

研发与上线：由Sand.ai（曹越团队）历时约6个月开发，现已正式上线（网址：gaga.art），无需邀请码或排队。
核心功能：主推“Gaga Actor”功能，专注于生成带台词的人物表演视频，实现高度的音画同步。
生成质量：人物面部表情、风吹头发、牙齿等细节逼真，作者评估其表演真实度达到影视级，适用于短剧和互动影游NPC对话。
输入方式：采用“图片+文本提示词”的工作流。内置Banana绘图模型生成角色，也支持用户使用外部工具（如即梦、豆包等）生成的图片。
参数限制：视频画幅固定为16:9，生成时长仅支持5秒和10秒两种选项。
多场景支持：支持复杂情绪表达（如叹气、哭泣、歇斯底里）、双人同框对话，以及让角色唱歌（但音调表现较抽象）。
产品定价：目前全员免费；官方表示未来定价会大幅低于Sora2和Veo3。

3) 风险与不足

音频与音色限制：目前无法自定义上传音频或固定角色音色ID，导致每次生成的音色不一致；且AI配音的情感起伏较平，弱于画面的情绪表现力。
文本长度限制：台词建议控制在20个字以内，提示词过长会导致视频结尾出现“吞字”或表演未完成视频即结束的情况。
动作变形风险：对大幅度、复杂的肢体运动（如手部擦眼泪）支持不佳，容易导致肢体变形。
语言支持差异：中文和英文支持较好，但对日文的支持效果表现诡异。
生成失败率：在并发生成时，存在念错字、大幅度表演变形或台词毫无感情的失败案例。

正文

Sora2爆火之后，随之而来的AI视频领域的新产品。

来自我的好朋友，曹越老师的Sand.ai。

凌晨，他们终于上线了他们全新的音画同步视频模型GAGA-1，在人物表演上，我觉得，已经算是现在的TOP级了。

就是这个模型名，不知道为什么总让我想起了一个非常古老的综艺，叫《认真的嘎嘎们》。。。

多说无益，直接给大家看我自己跑的效果吧。

翻了下聊天记录，没想到我跟曹越老师第一次交流会在4月，那时候也是他第一次给我发他用自己的视频模型做的小玩意，那时候还不叫GAGA-1，跑出来的视频也有点糊有点抖。

没想到6个月过去，他们的模型正式版，终于端出来了。

坦诚的讲，这个速度比我和他当时预期的都要慢，那天晚上我们电话聊到凌晨1点多，大家都客观的估计，可能只再要2个月？

没想到，时间眨眼而过，6个月的时间。

中间的艰辛和困难，可能只有曹越老师自己清楚了。

话说回到GAGA-1上，目前已经正式上线，没有邀请码，目无需排队，目前免费用，上线即玩。

曹越老师真的是个实在人。。。

网址在此： http://gaga.art

你可以看到三个功能，Gaga Actor，Gaga Avatar，Library。

Gaga Avatar是他们的老模型，可以不用管，只看第一个功能， Gaga Actor。这里面搭载的，就是他们的最新音画同步视频模型，GAGA-1。这个模型最大的特点，就是人物表演，带台词的表演。这个表演，从我自己的角度看，是绝对达到了影视级别的。我很少会用达到影视级别这种词语来描述视频模型，但是在单纯的人物表演这块，我是真的觉得，GAGA-1达到了影视级。当然影视里也分级别，短剧和影游级，GAGA-1绝大多数都没有问题；电视剧级，部分可以达到，至于电影级，那个要求还是太高了，再说吧，还是差了一些神韵。模型目前可调的参数几乎没有，固定死了16:9，可变的只有5s和10s。这里可以给大家一个我自己的小经验，台词字数在5个字左右的时候，可以用5s的时长去做，如果多余5个字，建议就直接上10s了，尽量不要超过20个字的台词，念起来我个人会觉得有一些奇怪。并且GAGA-1必须使用图+文一起的方式，传一个角色+一段Prompt，你就可以生成了。角色你可以直接用他们自己的画图功能跑。这里里面接的是Banana。不过Banana改图可以，他自己直出的图片审美，特别是亚洲人像的，我确实没有那么喜欢，我自己还是比较喜欢用Seedream 4.0，也就是豆包和即梦的图片4.0。所以我还是用我的这个AI模特染夏来举个例子。先来个简单的，我大概写了个Prompt： “ 女孩笑着说：‘你不会真的以为，我是那种一哭就输的女孩？’。” 然后直接点击运行，大概34分钟之后，一个10s的视频就出现了。我们来看看效果。这个视频没有roll，就是单纯的一次直出，头发上的风，还有神情，还有牙齿，都是我目前见过非常棒的了，如果不是有Sora2在，GAGA-1的表演真实度，可能就是我现在心中的第一名。这个案例是笑着说，我不改模特，再给大家看一下其他的Prompt生成的效果，这样对比应该会更直观一些。我又给出了第二条Prompt： “女孩叹了口气，低头咬了咬嘴唇，片刻后抬起头，声音坚定的说：‘我决定了，从今天起，我们谁都不欠谁了’。” 这次的Prompt会比第一个更复杂了一点，加入了叹气还有部分的表演动作，还有情绪。这次，我roll了两次，我本来想取一个放出来的，结果两条效果都不错，我觉得都可以放出来给大家看一下。第一个表演中，人物的叹气，更带有一些失望、失落、伤感，最后给出的话语，是无可奈何、是只能接受。而第二个表演，是有一丝气愤、有一些恨铁不成钢的表演情绪在，是我对你很失望，所以，我们以后再也互不相欠。两种表演，我觉得都没问题，要真说不足的话，就是我觉的台词的功底，目前相较于人物的表演层次，还是差了一些，台词念的太平，比不上表演的情绪。这个Prompt我又大概roll了7、8次，台词能力基本就在这了，并没有特别大的变动。第三条Prompt，我又测试了一下停顿、还有具体的情绪变化。给出的Prompt是这样的。 “女孩哭泣着说：‘你，真的不爱我了吗？’，停顿了一会，她情绪激动歇斯底里的喊到：‘我明白了！我不会再来找你了！’” 这次我直接一次性点到了并发的5条最大上限，这次的成功率，是40%，有两条是我觉得还不错的。两个表演的歇斯里地的程度不太一样，稍微有些差别，而且第一条，是完全自己给我配了BGM。不过第一条其实你已经可以发现一些问题的了，就是当Prompt过长的时候，会出现吞字的情况，最后一个字可能没表演完视频就结束了。另外3条失败的，因为每篇文章最多只能放10个视频，我就不传上来占用额度了，但是失败的原因基本上无外乎就是念错了字、大幅表演的时候稍微有点变形，以及台词几乎无感情。我又玩了一些其他的case。比如试着用动作复杂的半身像，既然是GAGA-1，怎么能少了这个Gaga： “女人保持着原来的姿势，只有表情变化，她非常骄傲地说：‘有没有可能，这个名字是因为…’她停顿一下，强调：‘我。’” 它能识别出是一个外国人并且使用蹩脚普通话，我觉得这点还是值得赞扬的。说实话我从一开始并不清楚什么是骄傲地说，随手一敲的事，但表演出来确实是骄傲从容的那种感觉。如果图片上有两个人，两个人的神态和语音表现也都还行： “男人无奈地看着女人：‘你到底让不让我说啊？’女人点点头，俏皮地回答：‘你说。’” 不知道你们有没有看过这个电影（《天若有情》），无比经典，十分推荐。哦对了，这个模型，其实也是能唱歌的，就是这个唱的歌，在音调上稍微有些抽象。。。比如让柯洁来唱一下最近很火的《技能五子棋》，自从看了这个节目，最近一闭眼脑子里全是这个奇怪的调。 “男人看着棋盘，唱歌：‘传统的五子棋，就是把五个子连成一条线，好无趣好无聊~’” 顺便恭喜柯洁三连冠卫冕棋圣。。。我想，从这些case中，你已经能看到GAGA-1大概的能力了。不过，模型的弊端也比较明显，对于一些大幅度、复杂的运动支持的不是很好，我试图让画面中出现擦眼泪的手，但是这个手会变形。同时，现在的台词，英文和中文支持的不错，日文比较的诡异，其他的语言倒是也支持，就是我实在是听不出来了。还有一个比较不太好进入工作流的点，就是现在没有办法自己上传音频，或者是固定角色的音色ID，导致每一次生成视频的音色都有点不太一样，这个Veo3一直没有解决，而Sora2是用的上传的角色视频作为 cameo的方式去解决的。这个我问了曹越老师，他说他们已经快做完了，就是单纯的赶不上这次发布，就没上了，我说我现在能先体验吗，他说你再等等，只是模型能力可以，但是我们工程啥都没做。。。最后，聊一下GAGA-1的价格，这个必然是逃不过的环节，比较再好的模型，贵上天际也很难普及。目前，GAGA-1是全员免费，不要钱。我问曹越老师，你准备免费到啥时候，他回了我一句：还没想好，不知道。。。但是他说，价格这块，肯定会比Sora2和Veo3低很多很多。。。行，那就趁现在，多用用吧。无论是你想做的短剧、互动影游里NPC的对话、或者是给小说角色配上一段可视化的表演，它都能给你带来一些不小的惊喜。当然，它现阶段还有很多不完善的地方，但最重要的，是它提供了一个全新的、低成本的可能性，让更多人能参与到视频内容的创作中来。而且，是国产的模型。大家自己去探索和发现吧，希望能看到大家非常整活有有趣的作品。玩的开心～ wzglyay@virxact.com

wsl-docs

探索

Sora2之后，又来了个全新的影视级AI视频模型，它的名字，叫GAGA。

摘要

正文

关联主题

关系图谱

目录

反向链接