动画师与AI研究员如何携手打造《亲爱的楼上邻居》

摘要

一句话总结

资深动画师与Google DeepMind研究员合作，利用定制微调的Veo和Imagen模型及创新的“视频到视频”工作流，创作了在圣丹斯电影节首映的动画短片《亲爱的楼上邻居》，成功探索了生成式AI在保留艺术家控制权前提下的动画制作应用。

关键要点

项目背景：动画短片《亲爱的楼上邻居》在圣丹斯电影节Story Forum首映，由前皮克斯员工Connie He执导，与Google DeepMind研究员共同完成。
核心目标：探索生成式AI如何融入艺术创作过程，既赋能动画师，又不剥夺他们的艺术控制权。
视觉设计：采用夸张比例和棱角分明的形状语言，画风随主角情绪变化，在现实（冷色调）与幻觉（粗犷霓虹色调、抽象表现主义）之间形成强烈对比。
模型微调（Fine-tuning）：研究人员开发了新工具，仅需少量示例图像即可对定制的Veo和Imagen模型进行微调，使其不仅能学习颜色和纹理，还能掌握深层艺术概念（如保持角色特定的二维轮廓规则）。
“视频到视频”工作流：动画师使用传统工具（如Maya或TV Paint）制作粗略动画，随后通过微调后的模型和定制的ComfyUI工作流将其转化为风格化的最终视频，实现了对运动轨迹和构图的精确控制。
局部细化（Localized refinement）：开发了局部编辑工具，允许艺术家通过添加遮罩等方式对视频特定区域进行修改（如修补头发、调整特定画面的风格），无需从头重新生成整个镜头。
4K超分辨率应用：使用Veo的超分辨率功能将最终镜头提升至4K以适应大银幕放映。该4K模型已在Flow可用，并将于本月晚些时候登陆Google AI Studio和Vertex AI。

风险与不足（基于原文明确提及）

纯文本提示的局限性：仅靠文本提示生成的画面往往是随机且怪异的，无法精确控制动画的节奏、喜剧时机或摄像机构图，无法满足叙事动画所需的细微差别。
无法“一键生成”：AI生成的镜头无法一次成型，仍需像传统电影制作一样进行“每日审查”（Dailies）和多轮反馈迭代。
模型生成失误：在制作过程中，AI模型有时会产生失误（例如在探索风格时，第一版生成的画面可能过于逼真而偏离艺术愿景）。

正文

今天，我们的动画短片《亲爱的楼上邻居》（Dear Upstairs Neighbors）在圣丹斯电影节（Sundance Film Festival）首映。该片在圣丹斯学会的Story Forum上展出，这是一个专注于以艺术家为中心、支持视觉叙事的工具和技术的平台。

故事讲述了一位名叫Ada的年轻女子，她极度渴望睡个好觉，却被楼上极其吵闹的邻居吵醒。当她努力想象楼上到底是什么在制造噪音时，现实逐渐演变成幻想，一场为了平静与理智的史诗级战斗由此展开。

这部短片由包括导演、前皮克斯员工Connie He在内的资深动画师与Google DeepMind的研究人员合作完成。他们的共同目标是探索生成式AI工具如何融入艺术家的创作过程，在赋能动画师的同时，不剥夺他们的艺术控制权。

独特的视觉风格与艺术愿景

导演Connie He根据自己遇到吵闹邻居的亲身经历构思了这个故事。在她的分镜中，随着夜幕降临，Ada的幻觉变得越来越疯狂和荒诞。为了塑造主角Ada，制作设计师Yingzong Xin创造了一种古怪而独特的设计，采用了夸张的比例和棱角分明的形状语言。

影片的色彩和风格极具表现力：Ada的卧室采用冷色调，传达出平静、舒适和庇护的感觉；而她的幻觉则呈现出粗犷的风格和霓虹色调，与卧室的“现实世界”形成鲜明对比。这种绘画风格会随着Ada情绪的变化而改变颜色和纹理，在最紧张的时刻，抽象表现主义风格甚至会占据整个画面。

微调模型以适应全新视觉风格

从一开始，团队就承诺在整个镜头制作过程中忠实于艺术家的愿景。表现主义的视觉风格是叙事的核心，但在传统动画中极难实现。

我们的首要挑战是制作出与Ada的角色设计及每场戏的绘画风格保持一致的镜头。为了实现高质量和一致性，研究人员开发了新工具，允许艺术家使用自己的艺术作品对定制的Veo和Imagen模型进行微调。仅通过少量示例图像，就能教会模型新的视觉概念。

Veo从概念图中学习到的东西令团队惊讶：不仅是颜色和纹理等表面细节，还包括两点透视等深层艺术概念。例如，Ada的角色设计遵循严格的二维规则——她标志性的蓬松头发和凌乱的发髻必须始终是轮廓的一部分，绝不能遮挡脸部。在传统的3D雕塑中，这很难从每个角度都看起来正确，但在使用Ada的图像微调后，Veo无缝地解决了这个冲突，在头部转动时平滑地调整形状以保持轮廓的正确性。

“展示，而非输入”：视频到视频的工作流

另一个挑战是精确控制每个镜头的内容和运动。仅靠文本提示（Text prompting）生成的画面往往是随机且怪异的，它无法控制Ada困倦手指敲击的节奏、面部表情的喜剧时机，或是摄像机展现画面的精确构图。文本无法传达叙事动画电影所需的细微差别和特异性。

为此，研究人员从动画师通过绘画或表演来传达视觉意图的方式中汲取灵感，开发了新颖的“视频到视频”（Video-to-video）工作流。

动画师可以在自己的舒适区工作，使用他们最喜欢的传统工具（如Maya或TV Paint）创建粗略的2D或3D动画。
随后，研究人员利用微调后的Veo和Imagen模型（结合定制的ComfyUI工作流），将这些粗略动画转化为完全风格化的最终视频。
这种方法既遵循了输入的运动轨迹，又能在严格控制与创意即兴之间进行灵活调整。

局部细化与不断迭代

即使有了微调和视频到视频工作流提供的控制力，最终的镜头也并非“一键生成”。就像任何电影制作一样，团队在“每日审查”（Dailies）中对每个镜头进行评判，经过多轮反馈以完善每一个细节。

为了在不每次都从头重新生成的情况下对镜头进行迭代，团队构建了局部细化（Localized refinement）工具。这允许艺术家以可调的控制级别编辑视频的特定区域。

风格探索： 在制作Ada产生狗叫幻觉的镜头时，Veo的第一版生成过于逼真。团队利用微调后的Veo和视频到视频工作流，在AI与Premiere等传统工具之间自由切换，以前所未有的自由度探索风格变化。
细节修补： 在改善Ada头发轮廓时，研究人员添加了一个粗略的遮罩来指示需要更多头发的区域，并使用Veo在那里即兴生成了一簇完美融入画面的头发。

4K超分与未来展望

最后，为了让短片能够在大银幕上放映，团队使用了Veo的超分辨率（Upscaling）功能将最终镜头提升至4K分辨率。在艺术家的指导下，研究人员仔细调整了模型的行为，在增加丰富细节的同时，保留了艺术风格的每一个细微差别。Veo的4K超分模型目前已在Flow中可用，并将在本月晚些时候登陆Google AI Studio和Vertex AI，以满足电影制作人的实际需求。

在整个制作过程中，这支跨学科团队开发了多种工作流，将手工动画的精确控制与生成式AI的风格灵活性和可扩展性结合起来。AI模型不仅产生了令人捧腹的失误，也经常用出人意料的优美创意解决方案带来惊喜。

艺术家们通过直接接触实验性研究获得了新的创作能力，并用他们的工艺和视角帮助塑造了AI的发展；而研究人员也获得了作为技术艺术家的实践经验，快速制作原型以突破艺术和技术障碍。我们将继续致力于与专业艺术家和电影制作人一起，为他们打造更强大的生成式AI工具。

wsl-docs

探索