摘要
1) 一句话总结 本指南详细说明了如何为 LTX-2 视频生成模型构建高效的提示词,涵盖了从镜头设置、动作描述到音频控制的核心要素、最佳实践及模型的具体局限性。
2) 关键要点
- 核心要素:一个完整的提示词应包含 6 个关键部分:确定镜头、设定场景、描述动作、定义角色、明确摄像机运动以及描述音频。
- 格式与长度:建议将提示词写成一个连贯的段落,包含 4 到 8 个描述性句子,并使用现在时态的动词来描述运动和动作。
- 细节与景别匹配:细节的丰富程度应与镜头景别相匹配(例如特写镜头需要比远景更精确的细节),并需明确摄像机与主体之间的空间关系。
- 音频与对话控制:支持生成环境音、音乐和语音;角色对话需放在引号内,并可具体指定语言、口音和音量大小。
- 模型优势(视觉与情感):LTX-2 擅长处理电影级构图(考究的灯光、浅景深)、天气氛围(雾、雨、光影)、明确的风格化美学,以及单主体的细腻面部表情和微妙手势。
- 迭代策略:建议从简单的提示词开始,随着迭代逐层添加额外的指令,以避免复杂指令被模型忽略。
3) 风险与局限性
- 文本生成缺陷:LTX-2 目前无法生成可读或一致的文本与徽标,需避免在提示词中要求生成标牌、品牌名称或印刷材料。
- 复杂运动导致伪影:非线性或快速扭曲的复杂物理运动(如跳跃、杂耍)可能会导致画面出现伪影或故障(但跳舞动作通常表现良好)。
- 抽象情感识别差:模型无法直接理解“悲伤”或“困惑”等内在状态标签,必须将其转化为具体的姿势、手势或面部表情等视觉线索。
- 场景过载降低准确性:画面中包含过多的角色、分层动作或过多的物体会降低视频的清晰度和模型的准确性。
- 光照逻辑冲突:除非有明确的场景动机,否则混合冲突的光源(如同时出现温暖的日落与冰冷的荧光灯)会导致光照逻辑不一致。
- 提示词过载:添加的动作、角色或指令越多,部分指令在最终输出中无法体现的概率就越高。
正文
要充分发挥 LTX-2 模型的潜力,一个好的提示词(prompt)将起到决定性的作用。关键在于为您讲述的故事描绘出一幅完整的画面,使其从头到尾自然流畅,并涵盖模型将您的愿景变为现实所需的所有元素。如果您是视频提示词编写的新手,本指南将帮助您构建有效的提示词。
PROMPT:
一个充满动作感的电影级镜头:一辆怪物卡车快速向镜头驶来,卡车经过镜头时,镜头向左平移,跟随卡车横冲直撞的行驶轨迹。卡车周围弥漫着灰尘和运动模糊效果,镜头具有手持拍摄的质感,努力追踪卡车驶向远方的身影。随后卡车漂移掉头,再次向镜头驶来,直到呈现极度特写。
PROMPT:
一个温暖阳光明媚的后院。镜头以一个紧凑的电影级特写开始,画面中是一位 30 多岁的女人和男人,他们表情严肃地面对面。女人情绪激动且充满戏剧性,轻声说道:“就是这样……爸爸疯了。我们也失去爸爸了。”
男人呼出一口气,略显烦躁:“别这么大惊小怪的,Jess。”
(稍作停顿)他瞥向一旁,然后辩解般地嘟囔道:“他只是在找点乐子。”
镜头缓慢向右平移,展现出花园里的祖父,他戴着巨大的蝴蝶翅膀,在空中挥舞着双臂,仿佛正试图起飞。
他全情投入地拍打着翅膀,大喊着:“呜呼——!”
女人捂住脸,快要哭出来了。整体基调冷面幽默、荒诞,又带着一丝淡淡的悲剧色彩。
包含的关键要素
- 确定镜头 (Establish the shot)。 使用与您偏好的电影类型相匹配的摄影术语。包括景别、画幅比例或特定类别的特征等要素,以进一步完善您想要的风格。
- 设定场景 (Set the scene)。 描述光照条件、调色板、表面纹理和氛围,以塑造情绪。
- 描述动作 (Describe the action)。 将核心动作写成一个自然的序列,从头到尾流畅进行。
- 定义您的角色 (Define your character(s))。 包括年龄、发型、服装和显著细节。通过肢体暗示表达情感。
- 明确摄像机运动 (Identify camera movement(s))。 指定视角应在何时以及如何发生变化。说明主体或物体在摄像机运动后如何出现,能让模型更好地了解如何结束该运动。****
- 描述音频 (Describe the audio)。 对环境音、音乐、音频和语音使用清晰的描述。对于对话,请将文本放在引号之间,并(如果需要)提及您希望角色拥有的语言和口音。
PROMPT:
内景。烤箱 – 白天。烤箱内部的静态镜头,透过微微起雾的玻璃门向外看。刚烤好的饼干周围散发着温暖的金黄色光芒。面包师的脸庞占据了整个画面,他全神贯注地睁大眼睛,凑近时呼吸让玻璃起了雾。随着蒸汽升起,玻璃上游移着微妙的反光。
面包师(戏剧性地低语):“今天……我实现了完美。”
他靠得更近了,鼻子几乎贴在玻璃上。
“金黄的边缘。柔软的夹心。众神闻到这些饼干都会落泪。”
面包师:“等等——”
(停顿)
“我难道……忘了放巧克力豆?”
切至侧面视角——同事突然出现在画面中,漫不经心地咀嚼着。
同事(嘴里塞满东西):“没。你忘了放糖。”
快速拉回镜头,对准面包师惊恐的脸,他紧贴着烤箱门,而玻璃后面的饼干正在瘪下去。蒸汽以慢动作向上飘散,整体呈现皮克斯风格的表演与节奏。
获得最佳效果的建议
- 将您的提示词保持在一个流畅的段落中,为模型提供一个连贯的场景进行处理。
- 使用现在时动词来描述运动和动作。
- 使您的细节与镜头景别相匹配。特写镜头比远景镜头需要更精确的细节。
- 在描述摄像机运动时,重点关注摄像机与主体之间的关系。
- 您应该预期编写 4 到 8 个描述性句子,以涵盖提示词的所有关键方面。
- 不要害怕迭代!LTX-2 专为快速实验而设计,因此不断完善提示词是工作流程的一部分。
PROMPT:
内景。日间脱口秀演播室 – 下午
柔和的演播室灯光照亮了暖色调的布景。观众发出微弱的窃窃私语声,镜头平移,展现出坐在沙发上的三位嘉宾——一对中年夫妇,以及坐在他们对面的节目主持人。
主持人身体前倾,声音平稳但带有探究意味:
主持人:“你们是什么时候第一次注意到你们的女儿 Missy 开始走向崩溃的?”
女人的脸皱成一团;她颤抖着吸了一口气,开始哭泣。她的丈夫将一只手放在她的肩膀上以示安慰,他低下头,然后重新转向主持人。
父亲(轻声地,带着内疚):“我们……我们不知道我们做错了什么。”
演播室陷入了片刻的沉默。镜头切向主持人,他神情凝重地看着镜头。
主持人(对着镜头):“让我们来看一段我们团队准备的短片——记录了 Missy 堕落的轨迹。”
灯光微微变暗,镜头向母亲泪流满面的脸庞推进。演播室的监视器闪烁着亮起,开始播放该片段,观众们屏住了呼吸。
其他有用的术语
这不是一个详尽的列表。使用它为您提供一些示例,说明如何打造您想要的结果。
类别 (Categories)
动画 (Animation): 定格动画 (stop-motion)、2D/3D 动画、黏土动画 (claymation)、手绘 (hand-drawn)
PROMPT:
匹诺曹坐在审讯室里,神情紧张,微微出汗。他非常小声地自言自语:“我没做……我没做……我不是杀人犯”。匹诺曹的鼻子正迅速变得越来越长。镜头正在向房间后面的单向透视玻璃推进变焦,随着镜头靠近,镜子变黑,并暴露出两个 FBI 探员模糊的剪影,他们站在另一侧光线昏暗的房间里。其中一个人正在说:“我跟你说,我感觉这孩子有点不对劲。”
风格化 (Stylized): 漫画书 (comic book)、赛博朋克 (cyberpunk)、8位像素 (8-bit pixel)、超现实 (surreal)、极简主义 (minimalist)、绘画风 (painterly)、插画风 (illustrated)
PROMPT:
这位年轻的非裔美国女性戴着充满未来感的透明面罩,穿着紧身衣,脖子上连着一根管子。她正在焊接一条机械臂。当她听到远处传来可疑的沉重撞击声时,她停下来向右看去。她从椅子上慢慢站起来,用愤怒的非裔美国人口音说道:“Rick,我告诉过你随手关上那扇该死的门!”接着,一个留着脏辫、穿着粗犷服装的未来感蓝色外星探险家兴奋地拿着一个未来设备走进画面,用低沉的机器人口音说道:“去他的门,看看我发现了什么!”外星人把设备递给女人,她兴奋地低头看着它,镜头拉近她那张充满好奇、被光照亮的脸庞。然后她说道:“这是我想的那个东西吗?”她兴奋地笑了。科幻风格的电影级场景。
电影感 (Cinematic): 年代剧 (period drama)、黑色电影 (film noir)、奇幻 (fantasy)、史诗太空歌剧 (epic space opera)、惊悚 (thriller)、现代爱情 (modern romance)、实验电影 (experimental film)、艺术电影 (arthouse)、纪录片 (documentary)
视觉细节 (Visual Details)
- 光照条件:摇曳的烛光、霓虹灯光、自然阳光、戏剧性的阴影
- 纹理:粗糙的石头、光滑的金属、破旧的织物、光泽表面
- 调色板:鲜艳、柔和、单色、高对比度
- 氛围元素:雾、雨、灰尘、粒子、烟雾
PROMPT:
镜头在一个宁静、阳光明媚的青蛙瑜伽馆中开场。温暖的晨光洒在木地板上,熏香的烟雾在空气中慵懒地飘荡。资深的青蛙导师盘腿坐在中央,闭着眼睛,声音低沉而平静。“我们与池塘融为一体。”所有的青蛙轻声回应:“嗡……”“我们与泥巴融为一体。”“嗡……”他微微一笑。“我们与苍蝇融为一体。”一阵安静的停顿。
镜头缓慢向一侧平移——一只青蛙抽搐了一下,眼珠乱转。突然——嗖!——它的舌头弹了出来,在半空中抓住一只苍蝇并卷进嘴里。大师缓缓呼气,依然保持着宁静。
“但我们不追逐苍蝇……”
(停顿)“……不在上课的时候。”那只心虚的青蛙僵住了,然后明显带着羞愧低下了头,把手重新叠放回冥想的姿势。其他青蛙恢复了它们的吟唱:“嗡……”镜头在尴尬的青蛙身上停留了片刻,它把眼睛闭得紧紧的,假装什么都没发生。
声音与语音 (Sound and Voice)
- 场景:咖啡馆的环境音、滴答的雨声和呼啸的风声、伴有鸟鸣的森林环境音
- 对话风格:充满活力的播音员、庄重浑厚的声音、失真的广播风格、机器人的单调声音、孩童般的好奇声音
- 音量:安静的耳语、嘟囔、大喊、尖叫
PROMPT:
在一家舒适的木镶板酒吧内,一场温暖、私密的电影级表演,由柔和的琥珀色实景光源照明,浅景深在背景中营造出闪烁的散景。镜头以一个中特写开场,画面中是一位 20 多岁的年轻女歌手,留着棕色短发和刘海,她闭着眼睛,姿态放松,一边弹奏原声吉他一边对着麦克风唱歌。镜头缓慢向左绕着她进行弧形运动,保持她的脸和麦克风清晰对焦,而她身后弹吉他的两名男性乐队成员则保持柔和的模糊状态。温暖的光线包裹着她的脸庞和头发,背景中装裱的照片和木墙缓缓掠过。现场环境音乐充满了整个空间,以她清澈的嗓音和轻柔的原声吉他扫弦为主导。
技术风格标记 (Technical Style Markers)
- 镜头语言:跟随 (follows)、跟拍 (tracks)、横向平移 (pans across)、环绕 (circles around)、向上仰拍 (tilts upward)、推进 (pushes in)、拉出 (pulls back)、俯视 (overhead view)、手持运动 (handheld movement)、过肩镜头 (over-the-shoulder)、远景交代镜头 (wide establishing shot)、静态画面 (static frame)
- 胶片特征:抖动的定格动画 (jittery stop-motion)、像素化边缘 (pixelated edges)、镜头光晕 (lens flares)、胶片颗粒 (film grain)
- 规模指示:广阔 (expansive)、史诗 (epic)、私密 (intimate)、幽闭恐惧 (claustrophobic)
- 节奏与时间效果:慢动作 (slow motion)、延时摄影 (time-lapse)、快速剪辑 (rapid cuts)、长镜头/停留镜头 (lingering shot)、连续镜头/一镜到底 (continuous shot)、定格 (freeze-frame)、淡入 (fade-in)、淡出 (fade-out)、无缝过渡 (seamless transition)、动态运动 (dynamic movement)、突然停止 (sudden stop)
- 特定视觉效果(如果相关):粒子系统 (particle systems)、运动模糊 (motion blur)、景深 (depth of field)
PROMPT:
一个动画电影级镜头。一个机器人缓慢行走,镜头向后推轨,并在中景中保持机器人缓慢行走的画面。机器人开始缓慢而沉重地奔跑。然后它停下来,镜头继续向后推轨,直到一个相似的蓝色机器人出现在过肩镜头中。
LTX-2 擅长的方面 (What Works Well with LTX-2)
电影级构图:
远景、中景和特写镜头,配合考究的灯光、浅景深和自然的运动。
充满情感的人类瞬间:
LTX-2 擅长处理单主体的面部表情、微妙的手势和面部细节。
氛围与场景:
雾、薄雾、黄金时刻的光线、柔和的阴影、雨、倒影和环境纹理等天气效果都有助于让场景更加真实。
干净、易读的镜头语言:
明确的指令,如“缓慢向前推轨 (slow dolly in)”、“手持跟拍 (handheld tracking)”或“过肩镜头 (over-the-shoulder)”,能提高一致性。
风格化美学:
绘画风、黑色电影、模拟胶片外观、时尚大片、像素化动画或超现实艺术风格,如果在提示词早期就指明,效果会特别好。
光照与情绪控制:
逆光、调色板、柔和的边缘光、闪烁的灯光——这些比通用的情绪词汇更能锚定基调。
语音:
角色可以用各种语言说话和唱歌。
PROMPT:
外景。小镇街道 – 早晨 – 现场新闻直播
镜头开场,一名新闻记者站在一排被封锁的汽车前,身后黄色的警戒线在飘动。光线温暖,清晨的阳光从摄像机镜头上反射出来。空气中弥漫着微弱的嘈杂声和远处的钻孔声。
记者手持麦克风,镇定但明显很兴奋,直视着镜头。
记者(直播):
“谢谢你,Sylvia。是的——这句话我从未想过会在电视直播中说出来——但今天早上,就在佛蒙特州宁静的纽卡斯尔小镇这里……发现了“黑金”——石油!”
他微微向身后的田野做手势。
记者(咧嘴笑):
“如果我的摄像师能把镜头平移过去,你们就会看到大家都在兴奋些什么了。”
镜头向右平移,慢慢展现出一个被戴着安全帽的工人们包围的建筑工地。一阵短暂的寂静——然后,伴随着突然的轰鸣声,一股石油喷泉从地下喷发而出,猛烈地向上喷射。
工人们欢呼雀跃、四处奔走,黑色的油柱在晨光中闪闪发亮。镜头微微摇晃,试图在混乱中保持对焦。
记者(画外音,在噪音中大喊):
“就是这个,朋友们——纽卡斯尔永远不会忘记的时刻!”
镜头捕捉到阳光在油雾上闪烁的光芒,然后向后拉出,展现出整个场景——小镇的天际线在狂野的石油喷泉映衬下形成剪影。
使用 LTX-2 时应避免的方面 (What to Avoid with LTX-2)
内在状态:
避免使用“悲伤”或“困惑”等情感标签而不描述视觉线索。请改用姿势、手势和面部表情。

文本和徽标:
LTX-2 目前无法生成可读或一致的文本。避免使用标牌、品牌名称或印刷材料。
复杂的物理现象或混乱的运动:
非线性或快速扭曲的运动(例如跳跃、杂耍)可能会导致伪影或故障。不过,跳舞的效果通常不错。
场景复杂度过载:
过多的角色、分层动作或过多的物体会降低清晰度和模型准确性。
不一致的光照逻辑:
除非有明确的动机,否则避免混合冲突的光源(例如“温暖的日落与冰冷的荧光灯发光”)。
过于复杂的提示词:
您添加的动作/角色/指令越多,其中一些在输出中无法体现的可能性就越高。从简单的事物开始,并在迭代时逐层添加额外的指令。