摘要
1) 一句话总结 通过与 Ginkgo Bioworks 合作构建 AI 驱动的闭环自动化实验室,GPT-5 成功优化了无细胞蛋白质合成(CFPS)流程,将蛋白质生产成本降低了 40%。
2) 关键要点
- 闭环自动化系统:将 GPT-5 与 Ginkgo Bioworks 的云实验室连接,采用“实验室在环”模式,由 GPT-5 设计实验、机器人执行并反馈数据以供模型迭代。
- 实验规模与速度:系统在两个月内进行了 6 轮闭环实验,在 580 个自动化微孔板上测试了超过 36,000 种独特的 CFPS 反应组合。
- 核心降本成果:GPT-5 仅用 3 轮实验便确立了新标杆,使蛋白质生产成本降低 40%,试剂成本改善 57%。
- 程序化验证:在实验运行前加入了严格的程序化验证,确保 AI 设计的实验在自动化平台上物理可执行,避免无效的“纸上实验”。
- 发现新配方:GPT-5 识别出了人类此前未测试过的低成本反应组合,并提出了能适应高通量、低氧等自动化实验室物理限制的鲁棒性配方。
- 微小变量的高杠杆效应:实验发现,缓冲液、能量再生组件和多胺等微小变量的调整,对成本优化产生了超预期的影响。
- 产量驱动降本:明确了提高单位昂贵输入(裂解液和 DNA)的蛋白质产量是降低 CFPS 整体成本的最核心策略。
3) 风险与不足
- 泛化能力未经验证:当前结果仅在单一蛋白质(sfGFP)和单一 CFPS 系统上得到证明,对其他蛋白质和系统的适用性尚待验证。
- 对物理条件高度敏感:部分优化结果对氧气化和反应几何形状非常敏感,这些因素在不同实验规模下会有所变化。
- 依赖人类监督:尽管 AI 可设计和解释实验,但协议改进、试剂处理等实验室实际细节仍需经验丰富的操作员监督。
- 潜在生物安全风险:模型在湿实验室中改进实验协议的能力可能引发安全风险,需通过“防范框架(Preparedness Framework)”进行评估,并在模型和系统层面建立护栏。
正文
我们与 Ginkgo Bioworks 合作,创建了一个由 AI 驱动的自动化实验室,成功将蛋白质的生产成本降低了 40%。
过去,我们见证了 AI 在数学和物理等领域的快速进步,在这些领域中,想法往往无需接触物理世界即可得到验证。但生物学不同,它的进步依赖于实验室,科学家们需要在这里进行耗时且昂贵的实验。
现在,这种情况正在发生改变。前沿 AI 模型已经可以直接连接到实验室自动化设备,提出实验方案、大规模运行实验、从结果中学习,并决定下一步的行动。在生命科学的大部分领域,迭代速度是最大的瓶颈,而自动化实验室正是为了消除这一限制而建立的。
在此前的研究中,我们展示了 GPT-5 可以通过闭环实验改进湿实验室的操作流程。本次研究则进一步证明,同样的方法可以有效降低蛋白质的生产成本。
我们将 GPT-5 与 Ginkgo Bioworks 的云实验室(一个通过软件远程运行、由机器人执行实验并返回数据的自动化湿实验室)连接起来,利用这种“实验室在环(lab-in-the-loop)”的设置来优化一种广泛使用的生物过程:无细胞蛋白质合成(CFPS)。
在 6 轮闭环实验中,系统在 580 个自动化微孔板上测试了超过 36,000 种独特的 CFPS 反应组合。在获得计算机、网络浏览器以及相关文献的访问权限后,GPT-5 仅用了 3 轮实验就确立了低成本 CFPS 的新标杆:实现了蛋白质生产成本 40% 的降低(试剂成本改善了 57%),并发现了对自动化实验室常见反应条件更具鲁棒性的新型反应组合。
为什么无细胞蛋白质合成(CFPS)很重要
无细胞蛋白质合成(CFPS)是一种无需培养活细胞即可制造蛋白质的方法。它不需要将 DNA 植入细胞并等待其产生蛋白质,而是在受控的混合物中直接运行蛋白质制造机制。这使其成为快速原型设计和测试的实用工具,科学家可以快速运行大量实验并在当天测量结果。
蛋白质是现代生物学的重要产物。许多重要药物都基于蛋白质,许多诊断和研究分析也依赖于蛋白质。在工业环境中,蛋白质作为酶可以使化学过程更清洁、更高效,甚至在日常的洗衣液中也能找到蛋白质的身影。当蛋白质的生产变得更快、更便宜时,科学家通常可以尽早测试更多的想法,并降低将早期研究转化为造福人类的日常产品的成本。
CFPS 已经成为这种快速迭代的有效工具,但其瓶颈在于难以优化,且在大规模应用时成本高昂。
优化 CFPS 的挑战
CFPS 需要复杂的、相互作用的成分:编码目标蛋白质的 DNA 模板、细胞裂解液(细胞内部机制的混合物),以及从能源到盐类的大量生化成分。将该系统作为一个整体进行推理极其困难。
标准的 CFPS 配方和商业试剂盒通常是为人类的工作节奏和规模定价的。而自动化实验室在人类团队运行几十个反应的时间内,可以运行数千个反应。在这种规模下,试剂成本就成了核心限制因素。
此外,仅凭直觉很难对 CFPS 进行优化。它是一个包含许多相互作用成分的混合物,微小的变化都可能产生影响,但效果的走向并不总是显而易见的。如果不进行大量实验,很难找到最佳组合。虽然以往的方法也降低了成本,但由于彻底探索该领域需要耗费大量人力,进展往往是渐进式的。
将 GPT-5 连接到机器人实验室
我们将 GPT-5 与 Ginkgo Bioworks 的云实验室配对,形成了一个用于 CFPS 优化的闭环自动化系统。
工作流程如下:GPT-5 设计批次实验,实验室执行这些实验,结果反馈给模型,模型再利用这些数据提出下一轮的实验方案。我们重复了这个循环 6 次。
为了确保这个循环符合自动化实验室的实际操作能力,我们在任何实验运行之前加入了严格的程序化验证。这种验证确保了 AI 设计的实验在自动化平台上是物理可执行的,从而防止了那些在文本中看似合理但在机器人工作流中无法开展的“纸上实验”。
在整个运行过程中,系统执行了超过 36,000 次 CFPS 反应。这种规模至关重要,因为在生物学中,单一实验往往充满噪音,只有通过高通量和快速迭代,才能从随机噪音中分离出有效信号。在获得相关论文和工具的访问权限后,GPT-5 耗时两个月、经过 3 轮实验,便确立了新的行业标杆:与之前的最佳基线相比,蛋白质生产成本降低了 40%。
核心发现与经验
我们发现,性能的提升主要来自于识别出能够良好协同工作,且能适应高通量自动化现实条件的成分组合:
- 发现未测试的新配方: GPT-5 识别出了人类此前未在此配置下测试过的低成本反应组合。尽管 CFPS 已被研究多年,但可能的混合物空间依然庞大。当系统能够快速提出并执行数千种组合时,就能发现手动工作流中容易错过的可行区域。
- 适应高通量环境的限制: 高通量、基于微孔板的实验通常与手动台式实验不同。在高通量反应格式中,氧气含量可能较低,混合方式和几何形状也有所不同。事实上,对于低体积的微孔板反应,GPT-5 在获得计算机和网络浏览器权限后,迅速提出了许多优于以往最佳方案的反应组合。总体而言,GPT-5 提出了许多在高通量限制下表现良好的试剂组合,包括许多在自动化实验室常见的低氧条件下更具鲁棒性的配方。
- 微小变量的巨大影响: 我们发现,缓冲液、能量再生组件和多胺的微小变化,相对于它们的成本而言,产生了超乎预期的影响。这些通常不是人们首选的调整参数,但在高通量条件下,它们成为了可测试的假设,而不再是背景预设。
- 产量是降低成本的关键: 成本结构本身决定了优化的重点。在 CFPS 中,目前的成本主要由裂解液和 DNA 决定。这意味着提高产量是最具杠杆效应的策略。如果能提高单位昂贵输入的蛋白质产量,就能在追求其他边缘成本节约之前,在成本控制上取得实质性进展。
局限性
尽管取得了显著成果,但本研究仍存在一些局限性:
- 泛化能力有待验证: 这些结果仅在一种蛋白质(sfGFP)和一种 CFPS 系统上得到了证明。对其他蛋白质和其他 CFPS 系统的泛化能力仍需进一步验证。
- 对物理条件的敏感性: 氧气化和反应几何形状会强烈影响产量,并且这些因素在不同规模下会有所不同。部分优化结果可能对这些条件非常敏感,理解这些敏感性是下一步工作的重点。
- 需要人类监督: 协议改进和试剂处理仍需要人类的监督。系统可以设计和解释实验,但实验室工作仍涉及需要经验丰富的操作员来处理的实际细节。
下一步计划
我们计划将这种“实验室在环”的优化方法应用于其他可以通过快速迭代解锁进展的生物工作流。我们认为自动化实验室与 AI 模型是互补的。模型可以生成设计,但生物学最终仍需要测试和迭代。闭环实验正是将有前景的想法转化为实际成果的关键途径。
在致力于安全、负责任地加速科学进步的同时,我们也寻求评估和降低潜在风险,特别是与生物安全相关的风险。这些结果表明,模型可以在湿实验室中进行推理以改进实验协议。我们将通过“防范框架(Preparedness Framework)”来评估和缓解其可能带来的生物安全影响,并致力于在模型和系统层面建立必要且细致的护栏以降低风险,同时开发相应的评估工具来追踪当前的安全水平。