Nano-Banana Pro看这一篇就够了，Google刚发布官方最强教程！

摘要

1) 一句话总结 Google 发布了 Nano-Banana Pro 官方指南，展示了该模型从趣味绘图向专业素材生产的跨越，重点介绍了其在角色一致性、文本渲染、2D/3D 转换及逻辑推理等方面的核心能力。

2) 核心要点

提示词黄金法则：提倡使用自然语言和完整句子进行对话式“编辑”，而非简单的标签堆砌或盲目重新抽卡。
卓越的文本与图表能力：具备 SOTA 级别的文本渲染能力，能将复杂数据或 PDF 压缩为清晰的可视化信息图、技术蓝图或白板总结。
角色一致性（身份锁定）：支持最多 14 张参考图像，可在不同场景、表情和动作中保持角色面部特征的高度统一。
实时搜索锚定：集成 Google 搜索功能，利用实时数据和时事信息生成图像，有效减少事实性幻觉。
高级编辑与修复：支持语义化的对象移除、图像修补、黑白照片上色以及跨文化的本地化适配（如翻译标语并更换背景）。
维度转换功能：支持 2D 平面图与 3D 室内设计效果图之间的相互转换，适用于建筑设计和创意表情包制作。
高分辨率输出：原生支持 1K 至 4K 图像生成，能够精准呈现复杂的材质纹理（如苔藓、金属、织物）。
逻辑推理与思考模式：模型在生成前会进行“思考”，可处理复杂的数学解题步骤、视觉推理（如推断施工前的样子）及连续分镜创作。
结构与布局引导：允许用户通过手绘草图、线框图或网格图像精确控制最终生成的构图和 UI 布局。

3) 风险/局限

参考图限制：在“高保真模式”下，参考图像的支持数量会从 14 张下降至 6 张。

正文

Datawhale干货教程：Nano-Banana Pro，谷歌官方指南今天，谷歌生成式AI团队发布了Nano-Banana的首个官方教程——《The Complete Guide to Nano Banana Pro: 10 Tips for Professional Asset Production》。核心信息是如何用 Nano-Banana Pro 制作专业级的素材！ Nano-Banana Pro 相较于前一代模型是一次重大飞跃，从“有趣”的图像生成迈向“实用”的专业素材制作。它在文本呈现、角色一致性、视觉合成、世界知识（Search）和高分辨率（4K）输出方面表现出色。以下是谷歌团队的官方指南：附教程地址： https://x.com/GoogleAIStudio/status/1994480371061469306 本文内容概览：提示词黄金法则文本渲染、信息图与视觉合成角色一致性与吸睛的缩略图基于 Google 搜索的现实锚定高级编辑、修复与上色维度转换 (2D ↔ 3D) 高分辨率与纹理思考与推理一次性分镜与概念艺术结构控制与布局引导一、Nano-Banana Pro的提示词黄金法则 Nano-Banana Pro 是一个“会思考”的模型。它不仅仅是匹配关键词，它能理解你的意图、物理规律和画面构图。要想获得最佳效果，请停止通过“标签堆砌”（例如：狗, 公园, 4k, 真实感）来抽卡，开始像一位创意总监那样去下达指令。 1、编辑，不要重新抽卡该模型非常擅长理解对话式的修改指令。如果生成的图片有 80% 是正确的，不要从头重新生成，直接告诉它你需要调整哪里。例子： “这很棒，但请将光线改为日落，并将文字改为霓虹蓝。” 2、使用自然语言和完整句子像在向一位人类艺术家汇报一样与模型对话，使用正确的语法和描述性形容词。 ❌ 反面例子： “酷车，霓虹，城市，夜晚，8k。” ✅ 正面例子： “一个电影感的广角镜头，展示一辆未来派跑车在雨夜的东京街头疾驰。霓虹灯牌的倒影反射在湿润的路面和汽车的金属底盘上。” 3、具体且有描述性模糊的提示词只会带来平庸的结果，定义主体、环境、光照和情绪。主体：别只说“一个女人”，而要说“一位穿着复古香奈儿风格套装的精致老妇人”。材质：描述纹理。“哑光饰面”、“拉丝钢”、“柔软的天鹅绒”、“皱褶的纸张”。 4、提供上下文（“为什么”或“给谁看”）因为模型会“思考”，给它提供上下文有助于它做出合乎逻辑的艺术决策。例子： “为一本巴西高端美食食谱制作一张三明治的图片。”（模型会据此推断出专业的摆盘、浅景深和完美的布光）。二、文本渲染、信息图表与视觉合成 Nano-Banana Pro 在渲染清晰、风格化的文本以及将复杂信息转化为视觉格式方面拥有 SOTA（当前最佳）的能力。最佳实践：压缩：要求模型将密集文本或 PDF “压缩”成视觉辅助材料。风格：明确指定你想要的风格，如“精致的编辑风”、“技术图表”或“手绘白板”效果。引用：明确指定你想要的文本，用引号括起来。示例提示词：财报信息图（数据输入） [输入 Google 最新财报的 PDF] “生成一张简洁、现代的图文信息图，总结这份财报的关键财务亮点。包括‘收入增长’和‘净利润’的图表，并用风格化的引用框高亮 CEO 的关键语录。” 复古信息图： “制作一张复古的 1950 年代风格信息图，介绍美国餐馆的历史。包含明确分区：‘食物’、‘点唱机’和‘装饰’。确保所有文本清晰可读，并采用符合该年代的风格进行艺术化设计。” 技术图表： “创建一张正投影蓝图，从平面、立面和剖面描述这座建筑。用技术建筑字体清晰标注‘北立面’和‘主入口’。比例 16:9。” 白板总结（教育类）： “将‘Transformer 神经网络架构’的概念概括成适合大学讲座的手绘白板图示。使用不同颜色的记号笔区分编码器（Encoder）和解码器（Decoder）模块，并为‘自注意力（Self-Attention）’和‘前馈网络（Feed Forward）’标注清晰的标签。” 三、角色一致性与吸睛的缩略图 Nano-Banana Pro 最多支持 14 张参考图像（高保真模式下为 6 张）。这使得“身份锁定”成为可能——将特定人物或角色放入新场景中而不会出现面部扭曲。最佳实践：身份锁定：明确说明：“保持人物的面部特征与图像 1 完全相同。” 表情/动作：在保持身份特征的同时描述情绪或姿势的变化。病毒式构图：在一次处理内将主体与醒目的图形和文字结合。示例提示词： “病毒式缩略图”（身份 + 文本 + 图形）(The “Viral Thumbnail” (Identity + Text + Graphics))： “使用图像 1 中的人物设计一个能病毒式传播的视频缩略图。面部一致性：保持该人物的面部特征与图像 1 完全相同，但将表情改为兴奋和惊讶。动作：将人物摆放在画面左侧，手指指向画面右侧。主体：在右侧放置一张高质量的美味牛油果吐司图片。图形：添加一个醒目的黄色箭头，将人物的手指与吐司连接。文本：在中间叠加巨大的流行风格文字：‘3分钟搞定！’。使用粗体白色描边和投影效果。背景：模糊、明亮的厨房背景。高饱和度和对比度。” “毛绒伙伴”场景（群体一致性） [输入 3 张不同毛绒玩偶的图片] “为这三位毛绒好友创作一个由 10 个部分组成的搞笑故事，讲述他们去热带度假的经历。故事全程充满刺激，情感起伏丰富，并以一个快乐的瞬间收尾。三位角色的服饰和身份在所有图片中保持一致，但在十张图片中他们的表情和拍摄角度应有所变化。确保每张图片中每个角色只出现一次。” 品牌资产生成： [输入 1 张产品图像] “创建 9 张令人惊艳的时尚摄影作品，风格仿佛出自获奖时尚杂志大片。使用此参考图像作为品牌风格，但在系列图中添加细微差别和多样性，能够传达出专业的设计感。请逐张生成九张图像。” 四、基于 Google 搜索的现实锚定 Nano-Banana Pro 可以利用 Google 搜索，基于实时数据、时事或事实核查生成图像，从而在时效性话题上减少幻觉。最佳实践：要求对动态数据（天气、股票、新闻）进行可视化。模型在生成图像之前“思考”（推理）搜索结果。示例提示词：事件可视化： “根据当前旅行趋势，生成一张 2025 年前往美国国家公园最佳时间的信息图。” 五、高级编辑、修复与上色模型擅长通过对话式提示进行复杂编辑。这包括“图像修补”（移除/添加对象）、“修复”（修复老照片）、“上色”（漫画/黑白照片）和“风格转换”。最佳实践：语义指令：你不需要手动遮罩；只需自然地告诉模型要更改什么。物理理解：你可以提出复杂的更改请求，例如“把这个杯子装满液体”来测试物理生成能力。示例提示词：对象移除与图像修补： “移除这张照片背景中的游客，并用与周围环境匹配的合理纹理（鹅卵石和店面）填补该区域。” 漫画/连环画上色： [输入黑白漫画分镜] “为这张漫画分镜上色。使用鲜艳的二次元风格调色板。确保能量光束的光效为发光的霓虹蓝，并且角色的服装与其官方配色保持一致。” 本地化（文本翻译 + 文化适配） [输入伦敦公交车站广告图像] “将这一概念本地化为东京场景，包括将标语翻译成日语。将背景更改为夜晚繁忙的涩谷街道。” 光线/季节控制： [输入一张夏季房屋图像] “把这个场景改为冬季。保持房屋建筑完全不变，但在屋顶和院子上添加积雪，并将光线改为寒冷、阴沉的下午光效。” 六、维度转换 (2D ↔ 3D）: Nano-Banana Pro一项强大的新功能是将 2D 示意图转换为 3D 可视化效果，反之亦然，非常适合室内设计师、建筑师和表情包创作者。示例提示词： 2D 平面图转 3D 室内设计板： “基于上传的 2D 平面图，生成一张专业的室内设计展示板单图。布局：拼贴形式，顶部一张大图为主图（客厅的广角透视图），下方三张小图（主卧、家庭办公室和一个 3D 俯视平面图）。风格：现代极简主义风格，采用温暖的橡木地板和乳白色墙面。质量：写真级的渲染，柔和的自然光照。” 2D 转 3D 表情包转换： “将‘This is Fine’狗狗表情包转换为写真级的 3D 渲染。保持构图相同，但让狗狗看起来像一个毛绒玩具，火焰看起来像真实的火焰。” 🛑 七、高分辨率与纹理 Nano-Banana Pro 支持原生 1K 至 4K 图像生成。这对于细节纹理或大幅面打印特别有用。最佳实践：如果你的 API/界面允许，请明确要求高分辨率（2K 或 4K）。描述高保真细节（瑕疵、表面纹理）。示例提示词： 4K 纹理生成： “利用原生高保真输出打造令人惊叹、氛围浓厚的苔藓森林地面环境。掌控复杂的光效与细腻的纹理，确保每一根苔藓丝和每一道光束都以适用于 4K 壁纸的像素级分辨率呈现。” 复杂逻辑（思考模式）： “创建一张超写实的信息图，展示一份精致芝士汉堡的分解图，突出烤制至金黄的布里欧修面包的纹理、肉饼的煎烤外壳以及芝士闪亮的融化状态。为每一层标注其风味特征。” 八、思考与推理 Nano-Banana Pro 默认采用“思考”过程，在渲染最终输出前会生成临时的思考图像（不收费）来细化构图。这样可以进行数据分析并解决视觉问题。示例提示词：解方程： “在白板上解方程 log_{x^2+1}(x^4-1)=2 在复数域中的解，清晰地展示解题步骤。” 视觉推理： “分析这张房间的图片，并生成一张‘施工前’的图像，展示该房间在施工期间可能的样子，显示框架和未完成的石膏板。” 九、一次性分镜与概念艺术 Nano-Banana Pro 支持在一次会话中生成连续画面或分镜而无需使用网格，确保叙事连贯流畅。这也常用于“电影概念艺术”（例如，即将上映电影的虚假泄露图）。示例提示词： “创作一个引人入胜的 9 部分故事，包含 9 张图像，主题为一对男女出现在获奖的豪华行李箱广告中。故事应具有情感高潮与低谷，以一个展示女性和品牌标志的优雅镜头结束。男女的身份和服装必须在整个过程中保持一致，但可以且应该从不同的角度和距离展现他们。请一次生成一张图片。确保每张图片均为 16:9 横向格式。” 十、结构控制与布局引导输入图像不限于角色参考或待编辑的主体。你可以用它们来严格控制最终输出的构图和布局。这对于需要将草图、线框图或特定网格布局转化为精美资产的设计师来说是革命性的。最佳实践：草稿与草图：上传手绘草图以精确指定文本和对象应放置的位置。线框图：使用现有布局或线框图的截图来生成高保真 UI 模型。网格：使用网格图像强制模型为基于图块的游戏或 LED 显示屏生成素材。示例提示词：草图转最终广告： “根据这张草图，为 [产品] 创建一个广告。” 线框图转 UI 模型： “为[产品]创建一个符合以下指南的模型。” 像素艺术与 LED 显示屏： “生成一个适合此 64x64 网格图像的独角兽像素精灵。使用高对比度颜色。” （提示：开发人员随后可以以编程方式提取每个单元格的中心颜色，来驱动连接的 64x64 LED 矩阵显示屏）。精灵图集： “在无人机上做后空翻的女性精灵图，3x3 网格，序列，逐帧动画，正方形纵横比。严格按照所附参考图像的结构。” （提示：你可以随后提取每个单元格并制作 GIF 动画）。一起“点赞”三连↓

wsl-docs

探索

Nano-Banana Pro看这一篇就够了，Google刚发布官方最强教程！

摘要

正文

关联主题

关系图谱

目录

反向链接