摘要
1) 一句话总结 Gemma Scope 2 是一套全面开源的 AI 可解释性工具套件,覆盖了参数规模从 2.7 亿到 270 亿的所有 Gemma 3 模型,旨在帮助研究人员透视大型语言模型的内部决策过程并开发安全干预措施。
2) 关键要点
- 模型覆盖范围:支持整个 Gemma 3 系列模型,涵盖 2.7 亿(270M)至 270 亿(27B)参数规模,有助于研究随规模扩大的新兴行为。
- 庞大的构建规模:是迄今由 AI 实验室发布的最大规模开源可解释性工具,构建期间存储了约 110 PB 数据,训练了超 1 万亿个参数。
- 核心技术架构:在模型每一层训练了稀疏自编码器(SAEs)和转码器(transcoders),充当观察模型内部状态的“显微镜”。
- 复杂行为破译:新增跳跃转码器(Skip-transcoders)和跨层转码器(Cross-layer transcoders),用于解析跨越多层的多步计算和算法。
- 先进训练方法:采用套娃训练技术(Matryoshka training technique),提升了 SAEs 检测有用概念的能力。
- 聊天场景专用工具:提供针对聊天微调版 Gemma 3 的分析工具,专门用于研究越狱、拒绝机制以及思维链(chain-of-thought)的忠实度。
- 核心应用目标:加速开发针对越狱、幻觉和阿谀奉承等 AI 安全问题的稳健干预措施。
3) 风险与不足(基于原文明确提及)
- LLM 内部不透明性:大型语言模型的内部决策过程高度不透明,缺乏可见性导致难以准确定位系统异常行为的根本原因。
- AI 行为与状态差异:模型表达出的推理过程与其内部真实状态之间可能存在不一致的风险。
- 特定安全威胁:现代大模型面临越狱(jailbreaks)、幻觉(hallucinations)和阿谀奉承(sycophancy)等明确的安全风险。
- 历史版本缺陷:初代 Gemma Scope 存在部分技术缺陷(原文指出已在 Gemma Scope 2 中通过新技术予以解决)。
正文
大型语言模型(LLM)具备惊人的推理能力,但其内部的决策过程在很大程度上仍然是不透明的。如果系统表现不如预期,缺乏对其内部运作的可见性会让我们很难准确定位其行为的真正原因。去年,我们推出了 Gemma Scope,帮助研究人员了解我们轻量级开源模型 Gemma 2 的内部运作,推动了可解释性科学的发展。
今天,我们正式发布 Gemma Scope 2:这是一套全面、开源的可解释性工具套件,适用于从 2.7 亿(270M)到 270 亿(27B)参数规模的所有 Gemma 3 模型。这些工具能够帮助我们追踪模型整个“大脑”中的潜在风险。
据我们所知,这是迄今为止由 AI 实验室发布的规模最大的开源可解释性工具。为了打造 Gemma Scope 2,我们存储了约 110 PB 的数据,并训练了总计超过 1 万亿个参数。
随着 AI 的不断发展,我们期待 AI 研究社区能够利用 Gemma Scope 2 来调试模型的新兴行为,更好地审计和调试 AI 智能体,并最终加速开发实用且稳健的安全干预措施,以应对越狱(jailbreaks)、幻觉(hallucinations)和阿谀奉承(sycophancy)等问题。
Gemma Scope 2 的全新升级
可解释性研究旨在理解 AI 模型的内部运作和学习算法。随着 AI 变得越来越强大和复杂,可解释性对于构建安全可靠的 AI 至关重要。
与上一代类似,Gemma Scope 2 就像是 Gemma 系列语言模型的“显微镜”。通过结合稀疏自编码器(SAEs)和转码器(transcoders),它允许研究人员深入模型内部,观察它们在“思考”什么,以及这些想法是如何形成并与模型行为产生联系的。这使得我们能够更深入地研究越狱或其他与安全相关的 AI 行为,例如模型表达的推理过程与其内部状态之间的差异。
初代 Gemma Scope 推动了模型幻觉、识别模型已知秘密以及训练更安全模型等关键安全领域的研究,而 Gemma Scope 2 则通过以下重大升级支持更具雄心的研究:
- 全规模覆盖:我们为整个 Gemma 3 系列(最高达 27B 参数)提供了全套工具。这对于研究只有在规模扩大时才会出现的新兴行为至关重要。例如,此前 27B 规模的 C2S Scale 模型曾帮助发现新的潜在癌症治疗路径,尽管 Gemma Scope 2 并未在该模型上训练,但这正是此类工具可能帮助理解的新兴行为的绝佳案例。
- 更精细的复杂内部行为破译工具:Gemma Scope 2 包含了在 Gemma 3 系列模型每一层上训练的 SAEs 和转码器。跳跃转码器(Skip-transcoders)和跨层转码器(Cross-layer transcoders)使得破译分布在模型各处的多步计算和算法变得更加容易。
- 先进的训练技术:我们采用了最先进的技术,特别是套娃训练技术(Matryoshka training technique),这有助于 SAEs 检测出更多有用的概念,并解决了初代 Gemma Scope 中发现的一些缺陷。
- 聊天机器人行为分析工具:我们还针对聊天场景微调的 Gemma 3 版本提供了专门的可解释性工具。这些工具能够分析复杂的多步行为,如越狱、拒绝机制以及思维链(chain-of-thought)的忠实度。
推动领域发展
通过发布 Gemma Scope 2,我们旨在为 AI 安全研究社区提供一套前沿的可解释性工具,从而推动该领域的发展。这种前所未有的访问权限,对于解决只有在更大规模的现代 LLM 中才会出现的现实安全问题至关重要。
相关文档
- Persona vectors:语言模型角色特征的监测与控制;关联理由:延伸思考;说明:两文都通过分析模型内部表征来应对幻觉与阿谀奉承等风险,可用于对比不同机构的可解释性方法。