摘要

1) 一句话总结 OpenAI发布了融合Operator视觉交互与DeepResearch信息检索能力的全新ChatGPT Agent,支持在虚拟机中协同调度多种工具执行复杂任务,并已向付费用户开放。

2) 关键要点

  • 技术融合:整合了Operator(擅长网页视觉与交互)与DeepResearch(擅长全网信息检索与长文阅读)的优势。
  • 运行机制:在虚拟机中运行,可同时调度文本浏览器、图形界面浏览器和代码终端。
  • 模型训练:并非普通的o3微调,而是通过端到端强化学习教会模型使用工具。
  • 用户额度:今日起向Pro用户(每月400次)、Plus和Team用户(每月40次)开放。
  • 功能支持:可生成研究报告、PPT、电子表格等文档,并支持授权连接Google Drive、Gmail等个人数据源。
  • 任务执行:单次任务耗时通常在5到30分钟之间,支持设置每日或每周自动重复执行。
  • 跑分表现:各项跑分成绩相比之前有10%~30%不等的提升。
  • 产品替代:原Operator的核心功能已被整合入新Agent,即将下线。

3) 风险与不足

  • 输出质量短板:生成的PPT视觉效果较差(“又素又丑”),表现不及其他通用Agent。
  • 系统稳定性:新功能发布导致了ChatGPT服务器崩溃。

正文

今天OpenAI的新Agent,终于发布了。

看完了全程,就怎么说呢,emm。。

最近都被挖人挖飞了,居然还是放出来了一个感觉很普通的ChatGPT Agent。

其实今年1月他们发布的Operator就是一个Agent,可以对浏览器上的内容进行视觉识别+操控。

两周以后,他们又发布了DeepResearch,这个相信大家都熟悉了,它可以让你进行深入的互联网研究并输出高质量的研究报告。

这两玩意都发布以后呢,他们发现了一个问题。

就是Operator在网页上阅读超长文章时会遇到困难,它必须滚动,一点一点看,巨墨迹,耗时超级长。

但这个缺点,又正好是DeepResearch的强项,他也不会干别的,它就会在全网扒拉信息。但同时又反过来了,DeepResearch不擅长与交互式和高度可视化的网页进行互动,但这个点,又是Operator所擅长的。

所以啊,他们就一拍脑门,哎?我们为啥不一拍即合呢。于是,OpenAI决定,就合了吧。

所以,第一个可以调同时调度文本浏览器、图形界面浏览器和一个代码终端的模型,放在了一台虚拟机里。

这就是今天发的,ChatGPT Agent[裂开]。

我说实话,o3在我眼里其实就是个Agent了,这玩意,其实更应该叫o3 pro的,现在那个o3 pro实在是太拉了,枉我当年那么吹o1 pro。

乱七八糟的跑分我就不想放了,没啥太大的意思,反正就是又涨了,涨了10~30%不等。

其他的简单总结一下。

  1. 今天向Pro、Plus 和 Team 用户推出。Pro用户每月400次,Plus和Team用户每月40次。

  2. 不是普通的o3的微调,是继续通过端到端强化学习教会模型工具使用。

  3. 能创建研究报告、PPT、电子表格或任何其他详细文档。

  4. 但是PPT生成的又素又丑,被各家其他的通用Agent秒杀。

  5. 能连接你的个人数据源,比如Google Drive、Gmail啥的,前提是你得授权。

  6. 任务执行时间一般在5到30分钟。做完后,你还能设置它自动重复,比如每天、每周啥的。

  7. Operator要被下线了,因为它的核心功能都整合进这个Agent了。

  8. 一发新东西,ChaGPT的服务器就要崩,果不其然,今晚又崩了。

没啥特别的。

洗洗睡吧,你永远可以对OpenAI的发布会。

保持失望。

关联主题