摘要

1) 一句话总结

AlphaGenome 是一款全新的人工智能模型,能够以单碱基分辨率分析长达100万个碱基对的DNA序列,准确预测基因变异对分子特性的影响,现已通过API面向非商业研究开放。

2) 关键要点

  • 核心功能:支持输入长达100万个碱基对的DNA序列,在单碱基分辨率下预测数千种分子特性(如基因起点/终点、剪接位置、RNA产量及DNA结合情况等)。
  • 技术架构:结合卷积层(检测短模式)与 Transformer(传递全局信息),并在多个互连的 TPU 上进行分布式计算。
  • 高效训练与推理:训练单个模型仅需4小时(计算成本仅为初代 Enformer 模型的一半),且能在1秒内高效评估基因变异对分子特性的影响。
  • 填补非编码区空白:与专注于蛋白质编码区(占基因组2%)的 AlphaMissense 形成互补,AlphaGenome 专注于解析占基因组98%的非编码区及其变异。
  • 业界领先性能:在基准测试中,单一序列预测的24项评估中有22项优于最佳外部模型;变异调控效应预测的26项评估中有24项胜出。
  • 创新剪接点建模:首次实现直接从序列中显式模拟 RNA 剪接点的位置和表达水平,为研究由剪接错误引起的罕见遗传病提供支持。
  • 应用场景:可用于疾病机制理解(如成功预测 T-ALL 白血病中的突变机制)、合成生物学(设计特定调控功能的DNA)以及基础研究。
  • 发布状态:研究成果于2026年1月发表在《自然》(Nature)杂志,目前通过 AlphaGenome API 提供非商业性研究预览版,未来计划全面发布。

3) 风险与局限性

  • 远距离调控限制:准确捕捉超过10万个DNA碱基之外的极远距离调控元件的影响仍是一个持续的挑战。
  • 特异性不足:模型捕捉特定细胞和组织特异性模式的能力仍有待进一步提高。
  • 不支持个人基因组预测:模型尚未针对个人基因组预测进行设计或验证,仅侧重于表征个体基因变异的性能。
  • 无法完全解释复杂疾病:无法全面展现基因变异如何导致涉及发育和环境因素等更广泛生物学过程的复杂特征或疾病。
  • 非临床用途:模型的预测结果仅供研究使用,尚未针对直接的临床目的进行设计或验证。

正文

基因组是细胞的“说明书”,包含了指导生物体外观、功能、生长和繁殖的完整DNA集合。DNA序列中的微小变异可能会改变生物体对环境的反应或对疾病的易感性。然而,在分子水平上破译基因组指令的读取方式,以及微小DNA变异发生时的后果,仍然是生物学界最大的谜团之一。

今天,我们推出了一款名为 AlphaGenome 的全新人工智能(AI)工具。它能够更全面、更准确地预测人类DNA序列中的单变异或突变如何影响调节基因的广泛生物过程。得益于技术的进步,该模型能够处理长DNA序列并输出高分辨率的预测结果。

注:2026年1月更新,该研究已在《自然》(Nature)杂志上发表。

为了推动科学研究,我们目前通过 AlphaGenome API 提供预览版,供非商业性研究使用,并计划在未来全面发布该模型。我们相信,AlphaGenome 将成为科学界的宝贵资源,帮助科学家更好地理解基因组功能和疾病生物学,并最终推动新的生物学发现和新疗法的开发。

AlphaGenome 的工作原理

AlphaGenome 模型将长达100万个字母(即碱基对)的长DNA序列作为输入,并预测数千种表征其调控活性的分子特性。它还可以通过对比突变序列与未突变序列的预测结果,来评估基因变异或突变的影响。

预测的特性包括:基因在不同细胞类型和组织中的起点和终点、剪接位置、RNA的产生量,以及哪些DNA碱基是可及的、相互靠近的或与特定蛋白质结合的。训练数据来自 ENCODE、GTEx、4D Nucleome 和 FANTOM5 等大型公共联盟,这些数据通过实验测量了涵盖数百种人类和小鼠细胞类型及组织中基因调控的重要模态。

在架构上,AlphaGenome 首先使用卷积层(Convolutional layers)检测基因组序列中的短模式,然后利用 Transformer 在序列的所有位置之间传递信息,最后通过一系列网络层将检测到的模式转化为不同模态的预测结果。在训练期间,针对单个序列的计算分布在多个互连的张量处理单元(TPU)上进行。

该模型建立在我们之前的基因组学模型 Enformer 的基础之上,并与 AlphaMissense 形成互补。AlphaMissense 专门用于对蛋白质编码区域(占基因组的2%)内的变异影响进行分类;而剩余98%的非编码区域对于协调基因活性至关重要,且包含许多与疾病相关的变异。AlphaGenome 为解释这些广阔的序列及其内部变异提供了全新的视角。

AlphaGenome 的显著特征

与现有的DNA序列模型相比,AlphaGenome 具有以下几个显著特点:

  • 高分辨率的长序列上下文分析: 模型可分析多达100万个DNA字母,并在单字母分辨率下进行预测。长序列上下文对于覆盖远距离的基因调控区域至关重要,而碱基级分辨率则能捕捉细粒度的生物学细节。以往的模型必须在序列长度和分辨率之间做出妥协,而我们的技术突破解决了这一限制,且并未显著增加训练资源——训练单个 AlphaGenome 模型(未经过滤提炼)仅需4小时,计算预算仅为训练初代 Enformer 模型的一半。
  • 全面的多模态预测: 通过解锁长输入序列的高分辨率预测,AlphaGenome 能够预测最多样化的模态,从而为科学家提供关于基因调控复杂步骤的更全面信息。
  • 高效的变异评分: 除了预测多种分子特性外,AlphaGenome 还能在短短一秒钟内高效评估基因变异对所有这些特性的影响。它通过对比突变与未突变序列的预测结果,并针对不同模态采用不同方法高效总结这种差异来实现这一点。
  • 新颖的剪接点建模: 许多罕见遗传病(如脊髓性肌萎缩症和某些形式的囊性纤维化)可能是由 RNA 剪接错误引起的。AlphaGenome 首次能够直接从序列中显式模拟这些剪接点的位置和表达水平,为深入了解基因变异对 RNA 剪接的后果提供了新视角。

基准测试中的领先性能

AlphaGenome 在广泛的基因组预测基准测试中实现了业界领先的性能。例如,预测DNA分子的哪些部分会紧密靠近、基因变异会增加还是减少基因表达,或者变异是否会改变基因的剪接模式。

在对单一DNA序列进行预测时,AlphaGenome 在24项评估中有22项优于最佳的外部模型。在预测变异的调控效应时,它在26项评估中有24项达到或超越了表现最好的外部模型。这一比较甚至包含了专门针对单一任务优化的模型,而 AlphaGenome 是唯一能够联合预测所有评估模态的模型,凸显了其强大的通用性。

统一模型的优势

AlphaGenome 的通用性使科学家能够通过一次 API 调用,同时探索变异对多种模态的影响。这意味着科学家可以更快速地生成和测试假设,而无需使用多个模型来研究不同的模态。

此外,AlphaGenome 的强劲表现表明,它在基因调控的背景下学习到了相对通用的DNA序列表示。这为更广泛的科学界提供了一个强大的基础模型。一旦模型全面发布,科学家将能够在自己的数据集上对其进行微调,以更好地解决独特的科研问题。

最后,这种方法为未来提供了一个灵活且可扩展的架构。通过扩展训练数据,AlphaGenome 的能力可以进一步提升,涵盖更多物种,或包含额外的模态,使其变得更加全面。这是该领域的一个里程碑:我们首次拥有了一个将长程上下文、碱基级精度和全方位基因组任务的顶尖性能统一起来的单一模型。

强大的研究工具

AlphaGenome 的预测能力可以助力以下几个研究方向:

  • 疾病理解: 通过更准确地预测基因破坏,AlphaGenome 可以帮助研究人员更精确地查明疾病的潜在原因,更好地解释与某些特征相关的变异的功能性影响,从而可能发现新的治疗靶点。该模型特别适合研究具有潜在巨大影响的罕见变异(如导致罕见孟德尔疾病的变异)。
  • 合成生物学: 其预测结果可用于指导具有特定调控功能的合成DNA的设计,例如,设计仅在神经细胞中激活而在肌肉细胞中不激活的基因。
  • 基础研究: 它可以协助绘制基因组的关键功能元件并定义其作用,识别调节特定细胞类型功能的最基本DNA指令,从而加速我们对基因组的理解。

例如,我们曾使用 AlphaGenome 研究一种癌症相关突变的潜在机制。在针对T细胞急性淋巴细胞白血病(T-ALL)患者的现有研究中,研究人员观察到了基因组特定位置的突变。利用 AlphaGenome,我们预测这些突变会通过引入 MYB DNA 结合基序来激活附近名为 TAL1 的基因。这不仅复制了已知的疾病机制,也突显了 AlphaGenome 将特定非编码变异与疾病基因联系起来的能力。

确定不同非编码变异的相关性极具挑战性,尤其是在大规模操作时。该工具将提供拼图中的关键一块,让我们能够建立更好的联系以理解癌症等疾病。

当前的局限性

尽管 AlphaGenome 标志着向前迈出的重要一步,但我们也必须认识到其当前的局限性。

与其他基于序列的模型一样,准确捕捉非常遥远的调控元件(例如超过10万个DNA字母之外的元件)的影响仍然是一个持续的挑战。未来工作的另一个重点是进一步提高模型捕捉细胞和组织特异性模式的能力。

我们尚未针对个人基因组预测(这是AI模型面临的已知挑战)设计或验证 AlphaGenome。相反,我们更侧重于表征个体基因变异的性能。此外,虽然 AlphaGenome 可以预测分子结果,但它无法全面展现基因变异如何导致复杂的特征或疾病。这些通常涉及更广泛的生物学过程(如发育和环境因素),超出了我们模型的直接范围。

我们将继续改进模型并收集反馈,以弥补这些差距。

赋能科学界

AlphaGenome 现已通过 AlphaGenome API 开放供非商业用途使用。请注意,我们模型的预测仅供研究使用,尚未针对直接的临床目的进行设计或验证。

我们邀请全球研究人员联系我们探讨 AlphaGenome 的潜在用例,并通过社区论坛提出问题或分享反馈。

我们希望 AlphaGenome 能成为更好理解基因组的重要工具,并致力于与学术界、工业界和政府机构的外部专家合作,确保 AlphaGenome 惠及尽可能多的人。结合更广泛科学界的共同努力,我们希望它能加深我们对DNA序列中编码的复杂细胞过程及变异影响的理解,并推动基因组学和医疗保健领域激动人心的新发现。

相关文档

关联主题