摘要

一句话总结

谷歌首席 AI 科学家 Jeff Dean 深度解析了谷歌的大模型战略与软硬件协同设计,并预测未来将迈向大一统模块化模型、深度个性化以及人人管理多 AI 智能体的时代。

关键点

  • 双线模型策略:谷歌同时推进高能力低成本模型(Flash级)与高端前沿模型(Pro/Ultra级),并通过“蒸馏技术”将前沿模型能力转移给小模型。
  • 万亿 Token 愿景:致力于打破上下文限制,采用类似搜索排序的“轻量高并发初筛-强模型精筛-最强模型深度理解”机制,并坚持原生多模态。
  • 系统扩容与批处理:系统设计需预留 5~10 倍扩容空间;由于数据搬运能耗远超计算能耗,必须使用批处理(Batching)来提升效率。
  • 软硬件协同:TPU 芯片设计需提前 2-6 年预判机器学习需求,硬件支持前沿算法(如稀疏专家模型),模型也向硬件特性适配(如极低精度、推测解码)。
  • 模块化大一统模型:通用模型泛化能力增强,未来趋势是“基座模型 + 模块化专家模型”,知识可像软件包一样按需安装和调用。
  • AI 智能体协作:未来个人可管理 50 个虚拟 AI 实习生,核心在于清晰定义需求、建立智能体小组架构,并输入高质量的工程指南作为上下文。
  • 未来两大跃迁:预测未来将出现关联用户全量授权数据的“深度个性化模型”,以及能进行海量后台思维链推理的“极致低延迟系统”(如突破 10,000 Token/s)。

风险/差距

  • 基准测试局限:公开基准测试生命周期有限,当正确率达到 95% 左右时,边际收益极低。
  • 能耗瓶颈:在当前 AI 算力中,能耗(尤其是数据搬运成本)而非单纯的计算力正成为真正的瓶颈。
  • 模型容量限制:单一模型的参数容量是有限的,难以无限制地保持所有领域的通用能力均衡。

正文

谷歌首席 AI 科学家 Jeff Dean 深度访谈:大一统模型时代到来,未来人人拥有 50 个 AI 实习生

“简历基本上就是 AI 的时间线”,这是许多人对 Gemini 背后的核心推动者、谷歌首席人工智能科学家 Jeff Dean 的评价。从 2000 年代初重写谷歌搜索全栈到重启万亿参数稀疏模型,再到将 TPU 与前沿机器学习研究协同设计,Jeff Dean 以一种低调的方式,几乎塑造了现代 AI 技术栈的每一层。

近日,他在一场深度对话中抛出了诸多独家观点与极具前瞻性的判断,详细透露了谷歌内部“冲前沿”的模式、推动团队架构改进的思考,以及对下一代模型演进的预测。

守住“帕累托前沿”:蒸馏技术是核心驱动力

在占据顶尖能力的同时兼顾效率,提供大家愿意用的模型,是谷歌守住“帕累托前沿”的关键。这并非单一因素所致,而是技术栈从上到下一整套体系的结合。

面对“冲前沿”和“落地部署”的权衡,谷歌的思路是双线并进:

  • 高能力、低成本模型(如 Flash 级别): 支持低延迟场景,让用户能轻松用于智能体编程等任务。
  • 高端前沿模型(如 Pro/Ultra 级别): 用于深度推理、解决复杂数学问题等场景,拓展能力边界。

这两者相辅相成,而蒸馏是连接两者的关键技术。必须先有前沿模型,才能将其能力蒸馏到小模型中。通过超大数据集和多次遍历,小模型可以从超大模型那里获取逻辑概率输出,学到仅靠硬标签无法学到的行为。如今,新一代的 Flash 版本甚至能大幅超越上一代 Pro 版本的效果。

突破上下文极限:让模型处理“万亿 Token”

公开基准测试的生命周期有限,当正确率达到 95% 左右时,边际收益极低。因此,谷歌内部使用一批不公开的基准测试,以确保训练数据无泄露,并衡量模型是否具备真正需要的新能力。

Gemini 1.5 推出的长上下文能力正是源于这种内部驱动。现有的 100 万或 200 万 Token 上下文虽然有用,但远未达到终极目标。真正的愿景是营造出“模型可以关注万亿 Token”的效果,相当于把整个互联网、海量视频,甚至用户授权的所有个人状态(邮件、照片、文档等)都纳入上下文。

为了实现这一目标,大模型系统的思路与谷歌搜索的排序系统类似:先用轻量模型和高并发处理,从海量数据中筛出初始候选(如 3 万个文档);再用更强的模型进一步筛选;最后用最强的模型去深度理解最核心的内容(如 117 个文档)。

此外,Gemini 从一开始就坚持原生多模态,不仅理解文本、图片、音视频等人类熟悉的模态,还要理解非人类模态(如自动驾驶激光雷达数据、机器人传感器数据、X 光与核磁共振等医疗影像)。

系统设计与能耗瓶颈:为什么批处理如此重要?

回顾 2001 年,谷歌将全量搜索索引塞进内存,彻底放宽了严格的字面匹配,向语义理解迈进。Jeff Dean 强调,设计系统时必须抓住最关键的参数,并把系统设计成能扩容 5~10 倍。一旦规模达到 100 倍,整个设计空间就会完全不同。

在当前的 AI 算力中,能耗而非单纯的计算力正成为真正的瓶颈。数据搬运的成本远高于实际计算的成本。例如,在同一块芯片上,将数据从 SRAM 传到乘法单元的能耗可能高达 1000 pJ,而一次乘法运算不到 1 pJ。

这就是为什么加速器必须使用批处理(Batching)。理论上 Batch=1 延迟最低,但为了做一次 1 pJ 的乘法而花费 1000 pJ 搬运数据,是对能耗和计算效率的巨大浪费。

软硬件协同设计:提前 2-6 年预判未来

TPU 的成功离不开芯片设计团队与机器学习专家的协同设计。设计一颗芯片从启动到进入数据中心通常需要数年时间,因此必须提前预测未来 2-6 年机器学习的计算需求。

硬件与模型架构是双向影响的:

  1. 硬件支持前沿算法: 针对长上下文注意力、稀疏专家模型等技术,TPU 提供了极高的芯片间互联性能。
  2. 模型适配硬件特性: 业界正在探索极低精度(如三值精度)配合权重缩放因子,以大幅降低按比特传输计算的能耗。此外,推测解码(Speculative Decoding)等技术也能通过扩大有效 Batch Size 来摊薄数据搬运成本。

大一统模型时代:知识像“软件包”一样可安装

过去,每个任务都需要单独训练专用模型(如专门的语音识别或路标识别模型)。而现在,大一统模型的时代真的来了。通用模型在从未见过的新任务上泛化能力越来越强,甚至不再需要领域专家。例如,曾经需要专用符号系统和工具的国际奥数题,现在只需将其交给统一的通用大模型即可解决。

然而,模型的参数容量是有限的。为了保持通用能力的均衡,未来的趋势将是**“基座模型 + 模块化专家模型”的组合**。

  • 模型知识是可安装的,就像下载软件包一样。
  • 用户可以同时拥有 200 种语言模块、超强机器人模块、超强医疗模块,并在不同场景下按需调用。
  • 这些可安装的知识一部分来自多轮检索,另一部分来自垂直领域的预训练。

史上最高产工程师的 AI 编程法:带领 50 个虚拟实习生

作为计算机历史上最高产的工程师之一,Jeff Dean 认为现在的代码工具已经可以处理非常复杂的任务。人类工程师与代码模型的互动方式决定了输出的质量。

未来,每个人都可能拥有 50 个虚拟 AI 实习生。管理它们的关键在于:

  • 清晰定义需求: 就像给高管写备忘录一样,必须极其清晰、无歧义地描述目标、边界情况和性能要求。
  • 组织架构演进: 你不需要直接管理 50 个智能体,而是让它们组成小组,你只需对接几个小组。这种模式下的沟通带宽,可能比传统层级化的团队协作更高。
  • 沉淀通用指南: 编写高质量的软件工程指南(如分布式系统设计技巧),将其作为上下文输入给代码智能体,能大幅提升其生成健壮系统的能力。

预测未来:极致低延迟与深度个性化

对于 AI 的下一步跃迁,Jeff Dean 给出了两个核心预测:

  1. 深度个性化模型: 能够访问并关联用户所有授权个人数据(邮件、照片、视频等)的个性化模型,将比纯通用模型带来巨大的价值提升。
  2. 极致低延迟系统: 延迟如果能突破到 10,000 Token/s,将产生质变。模型可以在后台进行海量的思维链推理(例如生成 9000 Token 的推理过程),最终只输出 1000 Token 的高质量代码。到那时,人类甚至不需要再去逐行阅读代码,直接让模型生成并验证即可。