摘要
1) 一句话总结
基于 Gemini Deep Think 模式的 AI 智能体通过自主推理与人机协作,成功在纯数学、物理和计算机科学领域解决了多项专业研究级难题,成为推动前沿科学发现的强大工具。
2) 核心要点
- 竞赛级表现:2025年夏,高级版 Gemini Deep Think 在国际数学奥林匹克(IMO)和国际大学生程序设计竞赛(ICPC)中均达到金牌或同等水平。
- 数学研究智能体(Aletheia):构建了配备自然语言验证器和网络搜索功能的智能体,支持迭代修改解决方案,并具备“承认无法解题”的能力以提升研究效率。
- 推理计算的缩放定律:随着推理时间计算量的增加,模型在 IMO-ProofBench Advanced 测试中得分达 90%,且该缩放定律在博士级基准测试(FutureMath Basic)中依然成立。
- 自主数学发现:AI 在无人类干预下自主生成了一篇关于算术几何(特征权重)的论文,并在 Bloom 的 Erdős 猜想数据库中自主解决了 4 个开放问题(如 Erdős-1051)。
- 跨学科解题:模型能够跨越学科边界,例如利用连续数学工具(如测度论、Kirszbraun 定理)解决离散计算机科学难题(最大割、斯坦纳树)。
- 推翻长期猜想:通过设计特定的三项组合反例,严格证伪了在线子模优化领域中长达十年的理论猜想。
- 物理与经济学应用:利用 Gegenbauer 多项式解决了宇宙弦引力辐射的复杂积分解析解;运用拓扑学将 AI 拍卖的“显示原理”扩展至连续实数域。
- 人机协作战术:总结了有效的协作策略,包括“顾问(Advisor)”模型、“平衡提示(同时要求证明或反驳以防偏误)”以及代码辅助验证。
- 学术成果转化:相关工作已达到“可发表质量”,解决了 18 个研究问题,部分成果已被顶级会议(如 ICLR ’26)接收或提交至知名期刊。
3) 风险与差距
- 数据稀缺与幻觉风险:在高级学科中,由于训练数据稀缺,基础模型容易出现表面化理解和“幻觉”。
- 虚假引用与计算误差:在综合已发表文献时,模型存在生成虚假引用和计算错误的风险(目前通过引入网络浏览和搜索来缓解)。
- 确认偏误:在证明过程中模型容易产生确认偏误(需通过“平衡提示”策略来防止)。
- 当前能力上限:根据提出的 AI 辅助数学研究分类法,目前的成果仅达到第 2 级(可发表质量),尚未取得第 3 级(重大进展)或第 4 级(里程碑式突破)的成果。
正文
作者: Thang Luong 与 Vahab Mirrokni
在顶尖数学家和科学家的指导下,Gemini Deep Think 正在解决数学、物理和计算机科学领域的专业研究问题。
2025年夏天,高级版 Gemini Deep Think 在国际数学奥林匹克竞赛(IMO)中达到了金牌水平,随后其更新版本在国际大学生程序设计竞赛(ICPC)中也取得了类似成绩。这些结果表明,该模型能够推理并解决为学生设计的最具挑战性的数学和编程问题。此后,Gemini Deep Think 模式已进入科学、工程和企业工作流,以应对更复杂、开放式的挑战。
最近,我们的团队发表了两篇论文,详细介绍了一项跨学科的努力:利用 Gemini Deep Think 模式解决专业研究问题。这些成果源于数学家、物理学家和计算机科学家之间的深度合作。
纯数学的前沿探索
与 IMO 问题不同,研究级数学需要运用浩瀚文献中的高级技巧。基础模型虽然拥有庞大的知识库,但数据的稀缺性往往导致它们在高级学科中出现表面化理解和“幻觉”。
为了解决这个问题,我们构建了一个由 Gemini Deep Think 模式驱动的数学研究智能体(内部代号为 Aletheia)。它配备了一个自然语言验证器,用于识别候选解决方案中的缺陷,并实现生成与修改解决方案的迭代过程。关键在于,该智能体能够承认自己无法解决某个问题,这一特性极大地提高了研究人员的效率。
此外,该研究智能体利用 Google 搜索和网络浏览来导航复杂的研究内容,从而在综合已发表文献时防止出现虚假引用和计算误差。
自 2025 年 7 月达到 IMO 金牌水平以来,Gemini Deep Think 取得了快速进展。随着推理时间计算量(inference-time compute)的增加,它在 IMO-ProofBench Advanced 测试中的得分高达 90%。我们证明了,当模型超越奥林匹克水平进入博士级练习(根据我们内部的 FutureMath Basic 基准测试)时,这种缩放定律(scaling law)依然成立。值得注意的是,Aletheia 证明了在较低的推理时间计算量下,也能实现更高的推理质量。
在研究级数学方面,Aletheia 已经通过不同程度的自主研究推动了多项进展:
- 可靠的自主研究:AI 在没有任何人类干预的情况下生成了一篇研究论文,计算了算术几何中称为特征权重(eigenweights)的特定结构常数。
- AI 引导的协作:一篇研究论文展示了人类与 AI 在证明被称为独立集(independent sets)的相互作用粒子系统边界时的协作成果。
- 广泛的半自主评估:对 Bloom 的 Erdős 猜想数据库中的 700 个开放问题进行了评估,包括自主解决了其中列出的 4 个开放问题。在 Erdős-1051 问题上,我们的模型不仅自主解决,还帮助引出了一篇研究论文中的推广结论。
该智能体还为另外两篇论文贡献了中间命题。
经过与数学界的广泛讨论,我们提出了一种分类法,根据重要性和 AI 贡献程度对 AI 辅助的数学研究进行分类,以推动关于 AI 生成结果的负责任记录、评估和交流的广泛讨论。目前,达到第 2 级(“可发表质量”)的工作已提交给知名期刊。我们目前并未宣称取得了第 3 级(“重大进展”)或第 4 级(“里程碑式突破”)的成果。
扩展至物理学与计算机科学
Gemini Deep Think 模式在计算机科学和物理学领域也展现出了巨大潜力。我们的第二篇论文基于类似的智能体推理理念,确定了有效的协作“秘诀”,特别是“顾问(Advisor)”模型:即人类引导 AI 进行迭代式的“直觉证明(Vibe-Proving)”循环,以验证直觉并完善证明。
我们还详细介绍了战术性技巧,例如“平衡提示(balanced prompting)”——同时要求证明或反驳以防止确认偏误——以及代码辅助验证。这些方法结合模型通过深层结构联系连接不同科学领域的能力,正在改变理论研究的进行方式。
在与专家合作解决 18 个研究问题的过程中,高级版 Gemini Deep Think 帮助解决了算法、机器学习、组合优化、信息论和经济学中长期存在的瓶颈。论文中的亮点包括:
- 跨越网络难题的数学边界:在“最大割(Max-Cut,高效分割网络)”和“斯坦纳树(Steiner Tree,连接高维点)”等经典计算机科学问题上,研究进展曾经停滞。Gemini 通过打破常规思维打破了僵局。它从完全不相关的连续数学分支中提取了高级工具(如 Kirszbraun 定理、测度论和 Stone-Weierstrass 定理),解决了这些离散算法难题。
- 解决在线子模优化中长达十年的猜想:2015 年的一篇理论论文提出了一个看似显而易见的数据流规则:复制一个到达的项总是比简单地移动原始项价值更低。专家们花了十年时间试图证明这一点。Gemini 设计了一个高度特定的三项组合反例,严格证明了这一长期存在的人类直觉是错误的。
- 机器学习优化:训练 AI 过滤噪声通常需要工程师手动调整数学“惩罚项”。研究人员创造了一种自动执行此操作的新技术,但无法在数学上解释其原因。Gemini 分析了方程式,并证明该方法之所以成功,是因为它在运行中暗中生成了自己的“自适应惩罚项”。
- 为 AI 升级经济学理论:最近一项关于拍卖 AI 生成 token 的“显示原理(Revelation Principle)”仅在出价限于有理数时才在数学上成立。将其扩展到连续实数域会使原证明失效。Gemini 运用高级拓扑学和序理论扩展了该定理,使其适应现实世界中连续的拍卖动态。
- 宇宙弦物理学:计算宇宙弦的引力辐射需要找到包含“奇点”的复杂积分的解析解。Gemini 使用 Gegenbauer 多项式找到了一种新颖的解决方案。这自然地吸收了奇点,将无限级数坍缩为闭合形式的有限和。
这些结果跨越了从信息与复杂性理论到密码学和机制设计的多个领域,证明了 AI 正在从根本上改变研究范式。
鉴于计算机科学以会议驱动的流动性发表机制,我们按学术轨迹而非严格的分类法来描述这些结果。其中约有一半的目标是顶级会议(包括已被 ICLR ’26 接收),其余大部分发现将作为未来的期刊论文提交。即使是在纠正领域错误或反驳猜想时,这些成果也凸显了 AI 作为高水平科学合作者的价值。
人机协作的未来
基于 Google 此前的突破,这项工作表明,通用基础模型在智能体推理工作流的加持下,可以成为强大的科学伴侣。
在顶尖数学家、物理学家和计算机科学家的指导下,Gemini Deep Think 模式正在证明其在以复杂数学、逻辑和推理为核心的领域中的实用性。
我们正在见证科学工作流的根本性转变。随着 Gemini 的演进,它充当了人类智力的“力量倍增器”,处理知识检索和严格验证,使科学家能够专注于概念深度和创意方向。无论是完善证明、寻找反例,还是连接不相关的领域,AI 正在成为科学进步下一篇章中宝贵的合作者。
致谢
本项目是 Google 内部的一项大规模合作,其成功归功于众多个人和团队的共同努力。Thang Luong 和 Vahab Mirrokni 领导了整体研究方向,Tony Feng 和 David Woodruff 提供了深厚的技术专长。我们感谢参与构建智能体推理的 Google 研究人员、进行验证与合作的学术专家,以及为 Deep Think 构建基础模型的 Gemini 后训练(Post-Training)团队。同时,也感谢数学、物理和计算机科学界的专家们为本项目提供的帮助与建议。