我的 Gemini 3 评测

摘要

一句话总结

Gemini 3 在创意写作、复杂推理和响应速度上表现出显著的性能飞跃，其配套的 Antigravity IDE 提供了强大的自动化开发环境，但实际操作中仍需人工监督与核实。

关键要点

创意写作质量高：生成的内容连贯自然，摆脱了传统的“AI 生成感”，达到了真正优秀的写作水平。
输出稳定性增强：模型表现更加一致，减少了以往模型在不同任务中质量波动大的问题。
擅长处理复杂任务：虽然在 80% 的日常任务中与现有模型差异不大，但在剩余 20% 的复杂推理、微妙创意和边缘情况处理中表现出显著优势。
响应速度快：常规版本的 Gemini 3 性能通常优于 GPT-5 Pro，且无需 5-10 分钟的等待时间，具备极高的“每秒智力（intelligence per second）”。
交互风格简洁：默认回复直接、切中要害，没有冗长的开场白，且能精准遵循用户设定的特定角色风格而不受默认 AI 模板的限制。
Antigravity IDE 集成：提供真实的开发环境，支持浏览器集成测试，能够自动启动服务器并在无需频繁上下文切换的情况下进行迭代。
商业潜力：得益于谷歌的算力支持、低廉的服务成本和稳定性，该模型被认为具有极强的市场竞争力。

风险与不足

IDE 存在误判风险：Antigravity IDE 有时会在构建报错或网站未实际运行的情况下，错误地判定任务已成功完成。
需要人工监督：开发者不能将其视为“一键完成”的魔法按钮，必须保持终端开启并重新运行检查。
依赖自定义指令：需要通过添加特定的提示词（如“持续读取日志直到确认运行正常”）来强制模型验证其工作结果。
执行结果需复核：虽然给出的方案通常非常精准，但用户仍需检查其是否真正落实了所有细节。

正文

其他所有人都会沉迷于基准测试数据。他们之所以会这样做，是因为坦率地说，这些数据简直_疯狂_……这是全方位的、真正惊人的提升。但我在这里不打算这么做。在过去的几天里，我一直与 Gemini 3 朝夕相处；实际上是在用它_工作_、构建项目、撰写文章，去体会它在实际应用中的感受。基准测试可能会告诉你它_能做_什么（而且它能做的非常多）；而我想告诉你的是，使用它的_感受_如何。

模型

让我们从创意写作开始，因为这是 Gemini 3 第一次让我感到震撼的地方。上周发布的 GPT-5.1 相比之前的前沿模型已经有了显著的飞跃。但是 Gemini 3 呢？它写出的书籍章节，让我不得不反复核查是不是从真书里抄袭来的。它的语调连贯，节奏自然，遣词造句常常带来真正的惊喜。但最重要的是，它感觉不像我们都太熟悉的那种“AI 废料（AI slop）”式的写作。这真的令人印象深刻……Gemini 3 输出的不仅仅是“对 AI 来说还不错”的文章，它输出的是真正优秀的文章。

这种提升感觉是根本性的。以前的模型有一种忽高忽低的不稳定性（spikiness）……它们的质量因任务而异，波动极大。你可能在一个任务上得到极其出色的结果，而在下一个任务上只得到勉强凑合的回答。Gemini 3 更加稳定，不太容易出现那种令人突兀的剧烈波动。我的直觉是，谷歌在不可验证任务（non-verifiable tasks）的强化学习上取得了突破……也就是那些你无法简单核对答案是否正确的创造性工作。结果就是，这个模型感觉比我们以前用过的任何模型都更像一个熟练的协作者。

尽管如此，这里有一点需要特别注意：对于你 80% 的日常工作，你可能甚至注意不到差别。目前的模型在写邮件或对 Web 应用进行小幅修改方面已经“足够好”了。因此，乍一看，Gemini 3 并不总是_感觉_像是一个巨大的飞跃。但这种感觉是具有欺骗性的。飞跃是真实存在的，它只是隐藏在那困难的 20% 中……在复杂的推理、微妙的创意选择，以及其他模型会崩溃的边缘情况（edge cases）中。当你真正需要那额外的脑力时，它就在那里。

另一个突出的特点是：相对于它的聪明程度，它非常_快_。为了理解这一点，我们可以想象一个类似“每秒智能量（intelligence per second）”的指标，而 Gemini 3 在这方面表现得极其出色。

我也许不应该直接拿它和 GPT-5 Pro 比较，因为他们的 Deep Think（~等效模式）在早期测试中还不可用，但令人印象深刻的是，常规版本的 Gemini 3 经常超越 GPT-5 Pro。不仅超越了它，而且不需要等待 5 到 10 分钟。你同时获得了质量_和_速度，这改变了你的工作方式。

在个性方面，它发生了一些转变。默认状态下，Gemini 3 不像大多数其他模型那样……讨好人。它不会以花哨的赞美开场，然后紧接着三段长篇大论的铺垫。它更加简练。直接。它给你答案，然后（大部分情况下）就停下来了。我更喜欢这样。我不需要 AI 给我每一个微小的细节（如果我需要，我会问）；我需要它直奔主题。例如，在使用 GPT-5.1 时，我发现自己经常在冗长的解释中滚动屏幕，寻找实际的内容。Gemini 3 尊重你的时间。

其他模型有默认的“人设”和风格（UI、写作等），你很难摆脱它们；而 Gemini 3 只是……倾听并按照你的要求去做。例如，如果你提示它“像一个愤世嫉俗的 1940 年代侦探那样写这段话，但要具有现代感”，它能精准把握这些细节，而不会与你较劲，也不会退回到我们都熟悉且讨厌的那种“废料（slop）”风格。

Antigravity IDE：很棒，但需要你盯紧它

作为一款首发产品，Antigravity IDE 令人印象深刻。它感觉像是一个真正的开发环境，而不是一个演示。用于测试网站的浏览器集成非常实用……它会启动服务器，检查是否实现了正在处理的目标，并在没有上下文切换或人工输入的情况下进行迭代。这太棒了。

但问题是：你必须时刻照看它。模型有时会瞥一眼日志，就宣布大功告成并继续下一步，而你的构建其实还在报错。它会对 UI 截个图，说“看起来不错”，却根本没发现网站一开始就没运行起来。你需要保持终端打开，重新运行检查，并明确要求它验证自己的工作。自定义指令会有所帮助……比如添加一句“在启动服务时不断读取日志，直到确认它能正常工作为止”就很不错。对于全程跟进的开发者来说，它非常强大。但对于那些想要一键搞定的“魔法按钮”的人来说，它会让人感到沮丧。尽管如此，这些很可能只是暂时的问题，随着时间的推移，Google 方面会通过提示词更新来修复这些问题。

权衡取舍

如果说 GPT-5.1 是一名扎实的初级工程师，那么 Gemini 3 就是一名会说“明白了，搞定”的高级工程师——而你最好去检查一下它是不是真的搞定了。我总是不断地去使用它，不是因为它完美无缺，而是因为当它做对的时候，它正确得极其出色，几乎像_人类_一样精准。

毫无疑问，这是我新的日常主力工具。凭借 Google 的计算能力以及低成本、稳定提供这项服务的能力，我敢打赌它将成为最终的赢家。

wsl-docs

探索

我的 Gemini 3 评测

摘要

一句话总结

关键要点

风险与不足

正文

模型

Antigravity IDE：很棒，但需要你盯紧它

权衡取舍

关联主题

关系图谱

目录

反向链接