摘要
1) 一句话总结 OpenAI发布了融合Operator视觉交互与DeepResearch信息检索能力的全新ChatGPT Agent,支持在虚拟机中协同调度多种工具执行复杂任务,并已向付费用户开放。
2) 关键要点
- 技术融合:整合了Operator(擅长网页视觉与交互)与DeepResearch(擅长全网信息检索与长文阅读)的优势。
- 运行机制:在虚拟机中运行,可同时调度文本浏览器、图形界面浏览器和代码终端。
- 模型训练:并非普通的o3微调,而是通过端到端强化学习教会模型使用工具。
- 用户额度:今日起向Pro用户(每月400次)、Plus和Team用户(每月40次)开放。
- 功能支持:可生成研究报告、PPT、电子表格等文档,并支持授权连接Google Drive、Gmail等个人数据源。
- 任务执行:单次任务耗时通常在5到30分钟之间,支持设置每日或每周自动重复执行。
- 跑分表现:各项跑分成绩相比之前有10%~30%不等的提升。
- 产品替代:原Operator的核心功能已被整合入新Agent,即将下线。
3) 风险与不足
- 输出质量短板:生成的PPT视觉效果较差(“又素又丑”),表现不及其他通用Agent。
- 系统稳定性:新功能发布导致了ChatGPT服务器崩溃。
正文
今天OpenAI的新Agent,终于发布了。
看完了全程,就怎么说呢,emm。。
最近都被挖人挖飞了,居然还是放出来了一个感觉很普通的ChatGPT Agent。
其实今年1月他们发布的Operator就是一个Agent,可以对浏览器上的内容进行视觉识别+操控。
两周以后,他们又发布了DeepResearch,这个相信大家都熟悉了,它可以让你进行深入的互联网研究并输出高质量的研究报告。
这两玩意都发布以后呢,他们发现了一个问题。
就是Operator在网页上阅读超长文章时会遇到困难,它必须滚动,一点一点看,巨墨迹,耗时超级长。
但这个缺点,又正好是DeepResearch的强项,他也不会干别的,它就会在全网扒拉信息。但同时又反过来了,DeepResearch不擅长与交互式和高度可视化的网页进行互动,但这个点,又是Operator所擅长的。
所以啊,他们就一拍脑门,哎?我们为啥不一拍即合呢。于是,OpenAI决定,就合了吧。
所以,第一个可以调同时调度文本浏览器、图形界面浏览器和一个代码终端的模型,放在了一台虚拟机里。
这就是今天发的,ChatGPT Agent[裂开]。
我说实话,o3在我眼里其实就是个Agent了,这玩意,其实更应该叫o3 pro的,现在那个o3 pro实在是太拉了,枉我当年那么吹o1 pro。
乱七八糟的跑分我就不想放了,没啥太大的意思,反正就是又涨了,涨了10~30%不等。
其他的简单总结一下。
-
今天向Pro、Plus 和 Team 用户推出。Pro用户每月400次,Plus和Team用户每月40次。
-
不是普通的o3的微调,是继续通过端到端强化学习教会模型工具使用。
-
能创建研究报告、PPT、电子表格或任何其他详细文档。
-
但是PPT生成的又素又丑,被各家其他的通用Agent秒杀。
-
能连接你的个人数据源,比如Google Drive、Gmail啥的,前提是你得授权。
-
任务执行时间一般在5到30分钟。做完后,你还能设置它自动重复,比如每天、每周啥的。
-
Operator要被下线了,因为它的核心功能都整合进这个Agent了。
-
一发新东西,ChaGPT的服务器就要崩,果不其然,今晚又崩了。
没啥特别的。
洗洗睡吧,你永远可以对OpenAI的发布会。
保持失望。