摘要

一句话总结

Gemini 3 在创意写作、复杂推理和响应速度上表现出显著的性能飞跃,其配套的 Antigravity IDE 提供了强大的自动化开发环境,但实际操作中仍需人工监督与核实。

关键要点

  • 创意写作质量高:生成的内容连贯自然,摆脱了传统的“AI 生成感”,达到了真正优秀的写作水平。
  • 输出稳定性增强:模型表现更加一致,减少了以往模型在不同任务中质量波动大的问题。
  • 擅长处理复杂任务:虽然在 80% 的日常任务中与现有模型差异不大,但在剩余 20% 的复杂推理、微妙创意和边缘情况处理中表现出显著优势。
  • 响应速度快:常规版本的 Gemini 3 性能通常优于 GPT-5 Pro,且无需 5-10 分钟的等待时间,具备极高的“每秒智力(intelligence per second)”。
  • 交互风格简洁:默认回复直接、切中要害,没有冗长的开场白,且能精准遵循用户设定的特定角色风格而不受默认 AI 模板的限制。
  • Antigravity IDE 集成:提供真实的开发环境,支持浏览器集成测试,能够自动启动服务器并在无需频繁上下文切换的情况下进行迭代。
  • 商业潜力:得益于谷歌的算力支持、低廉的服务成本和稳定性,该模型被认为具有极强的市场竞争力。

风险与不足

  • IDE 存在误判风险:Antigravity IDE 有时会在构建报错或网站未实际运行的情况下,错误地判定任务已成功完成。
  • 需要人工监督:开发者不能将其视为“一键完成”的魔法按钮,必须保持终端开启并重新运行检查。
  • 依赖自定义指令:需要通过添加特定的提示词(如“持续读取日志直到确认运行正常”)来强制模型验证其工作结果。
  • 执行结果需复核:虽然给出的方案通常非常精准,但用户仍需检查其是否真正落实了所有细节。

正文

其他所有人都会沉迷于基准测试数据。他们之所以会这样做,是因为坦率地说,这些数据简直_疯狂_……这是全方位的、真正惊人的提升。但我在这里不打算这么做。在过去的几天里,我一直与 Gemini 3 朝夕相处;实际上是在用它_工作_、构建项目、撰写文章,去体会它在实际应用中的感受。基准测试可能会告诉你它_能做_什么(而且它能做的非常多);而我想告诉你的是,使用它的_感受_如何。

模型

让我们从创意写作开始,因为这是 Gemini 3 第一次让我感到震撼的地方。上周发布的 GPT-5.1 相比之前的前沿模型已经有了显著的飞跃。但是 Gemini 3 呢?它写出的书籍章节,让我不得不反复核查是不是从真书里抄袭来的。它的语调连贯,节奏自然,遣词造句常常带来真正的惊喜。但最重要的是,它感觉不像我们都太熟悉的那种“AI 废料(AI slop)”式的写作。这真的令人印象深刻……Gemini 3 输出的不仅仅是“对 AI 来说还不错”的文章,它输出的是真正优秀的文章。

这种提升感觉是根本性的。以前的模型有一种忽高忽低的不稳定性(spikiness)……它们的质量因任务而异,波动极大。你可能在一个任务上得到极其出色的结果,而在下一个任务上只得到勉强凑合的回答。Gemini 3 更加稳定,不太容易出现那种令人突兀的剧烈波动。我的直觉是,谷歌在不可验证任务(non-verifiable tasks)的强化学习上取得了突破……也就是那些你无法简单核对答案是否正确的创造性工作。结果就是,这个模型感觉比我们以前用过的任何模型都更像一个熟练的协作者。

尽管如此,这里有一点需要特别注意:对于你 80% 的日常工作,你可能甚至注意不到差别。目前的模型在写邮件或对 Web 应用进行小幅修改方面已经“足够好”了。因此,乍一看,Gemini 3 并不总是_感觉_像是一个巨大的飞跃。但这种感觉是具有欺骗性的。飞跃是真实存在的,它只是隐藏在那困难的 20% 中……在复杂的推理、微妙的创意选择,以及其他模型会崩溃的边缘情况(edge cases)中。当你真正需要那额外的脑力时,它就在那里。

另一个突出的特点是:相对于它的聪明程度,它非常_快_。为了理解这一点,我们可以想象一个类似“每秒智能量(intelligence per second)”的指标,而 Gemini 3 在这方面表现得极其出色。

我也许不应该直接拿它和 GPT-5 Pro 比较,因为他们的 Deep Think(~等效模式)在早期测试中还不可用,但令人印象深刻的是,常规版本的 Gemini 3 经常超越 GPT-5 Pro。不仅超越了它,而且不需要等待 5 到 10 分钟。你同时获得了质量_和_速度,这改变了你的工作方式。

在个性方面,它发生了一些转变。默认状态下,Gemini 3 不像大多数其他模型那样……讨好人。它不会以花哨的赞美开场,然后紧接着三段长篇大论的铺垫。它更加简练。直接。它给你答案,然后(大部分情况下)就停下来了。我更喜欢这样。我不需要 AI 给我每一个微小的细节(如果我需要,我会问);我需要它直奔主题。例如,在使用 GPT-5.1 时,我发现自己经常在冗长的解释中滚动屏幕,寻找实际的内容。Gemini 3 尊重你的时间。

其他模型有默认的“人设”和风格(UI、写作等),你很难摆脱它们;而 Gemini 3 只是……倾听并按照你的要求去做。例如,如果你提示它“像一个愤世嫉俗的 1940 年代侦探那样写这段话,但要具有现代感”,它能精准把握这些细节,而不会与你较劲,也不会退回到我们都熟悉且讨厌的那种“废料(slop)”风格。

Antigravity IDE:很棒,但需要你盯紧它

作为一款首发产品,Antigravity IDE 令人印象深刻。它感觉像是一个真正的开发环境,而不是一个演示。用于测试网站的浏览器集成非常实用……它会启动服务器,检查是否实现了正在处理的目标,并在没有上下文切换或人工输入的情况下进行迭代。这太棒了。

但问题是:你必须时刻照看它。模型有时会瞥一眼日志,就宣布大功告成并继续下一步,而你的构建其实还在报错。它会对 UI 截个图,说“看起来不错”,却根本没发现网站一开始就没运行起来。你需要保持终端打开,重新运行检查,并明确要求它验证自己的工作。自定义指令会有所帮助……比如添加一句“在启动服务时不断读取日志,直到确认它能正常工作为止”就很不错。对于全程跟进的开发者来说,它非常强大。但对于那些想要一键搞定的“魔法按钮”的人来说,它会让人感到沮丧。尽管如此,这些很可能只是暂时的问题,随着时间的推移,Google 方面会通过提示词更新来修复这些问题。

权衡取舍

如果说 GPT-5.1 是一名扎实的初级工程师,那么 Gemini 3 就是一名会说“明白了,搞定”的高级工程师——而你最好去检查一下它是不是真的搞定了。我总是不断地去使用它,不是因为它完美无缺,而是因为当它做对的时候,它正确得极其出色,几乎像_人类_一样精准。

毫无疑问,这是我新的日常主力工具。凭借 Google 的计算能力以及低成本、稳定提供这项服务的能力,我敢打赌它将成为最终的赢家。

关联主题