摘要

1) 一句话总结 一项针对647名用户的调研显示,尽管国内AI大模型在宣传中屡称“超越”,但在真实用户认知与使用中,GPT系列仍占据绝对主导地位,国内大模型仅文心一言、智谱清言和讯飞星火具备一定认可度。

2) 关键要点

  • 样本特征:共回收647份问卷,受访者以资深用户为主,57%的用户使用AI已超过6个月。
  • 最常用大模型:GPT-3.5和GPT-4遥遥领先,合计占据54%的用户份额;国内大模型合计占31%,前三名依次为文心一言(14%)、智谱清言(7%)和讯飞星火(6%)。
  • 最强大模型认知:84%的用户认为国外大模型(GPT-4、GPT-3.5、Claude)最强,其中GPT-4呈碾压态势;仅19%的用户认为国产大模型最强。
  • 认知反差:在最常使用文心一言和智谱清言的313名用户中,高达79.8%的人依然认为GPT-4才是最强的大模型。
  • 核心使用场景:高度集中于工作与学习,包括创意写作(22%)、办公助理(22%)、学习教育(20%)和代码辅助(14%),情感对话与娱乐仅占10%。
  • 模型场景偏好:GPT-4能力全面(多边形战士);文心一言用户更倾向用于创意创作;智谱清言用户更倾向将其作为办公助理解决实际问题。
  • 企业务实态度:作者提倡正视差距,赞赏智谱等公司踏实做事、客观承认自身不足的务实态度。

3) 风险/差距(基于原文明确提及)

  • 国内外模型能力客观差距:国产大模型与GPT-4仍存在实质性差距,例如智谱曾发文承认其目前的Agent能力仅能达到GPT-4的四分之一。
  • 公关宣传与用户认知的脱节:部分国内大模型在媒体和公关口径中号称“全面超越GPT-4”,但真实用户在实际使用后并不买账,夸大宣传难以转化用户的真实心智。

正文

自从ChatGPT去年11月发布,已经过去快1年了。而距离 2月份在国内爆火,也已经过去整整半年了。

这期间,有太多太多的AI大模型,在公关口径、在媒体传播、在各种榜单评分上,号称达到了“最强”,超过了GPT3.5,甚至有的都已经号称将GPT4踩在了脚下。

包括今天科大讯飞星火的发布会,说星火V3.0综合能力也全面超越ChatGPT,“国内领先,国际一流”。

于是,我就有一个想法, 想看看真实用户,到底对这么多AI大模型的能力,是一个怎么样的排名, 是否真如媒体口中所说,XX全面超越GPT4,遥遥领先?

我就做了一个问卷调查,最后收到了647人的回答。

相对于这些AI大模型的日活体量,这个样本的代表性肯定不够完美,但是我已经尽力了,我在我自己的群里、朋友圈、微博等等都发了,也很感谢一些朋友的帮忙。

不过647个真实用户的回答,在统计学上,也能客观的展现出一定的特征了。

在这些用户的使用经验上,使用较久的用户偏多。57%的用户都是已经用了6个月以上的老用户,23%的用户也用了3~6个月了。这些用户大部分都用了绝大多数的大模型。这个比例符合AI的热度曲线。

2、3月的时候是AI热度最炸裂的时候,后面流入的新用户是越来越少。包括我自己社群的特征,也是老用户居多。

而在最常用的大模型上, GPT3.5和GPT4基本遥遥领先,占据了最大的比例。两者直接瓜分掉了54%的用户 。

剔除GPT、Claude、Bard后,国内的AI大模型只拿到了31%的份额。

文心一言最多,213票占据14%,其次是智谱清言,100票占据7%,讯飞星火93票占据6%,剩下的一些国产大模型几乎没人用,暂且按下不表。

因为这是最常用的AI大模型占比,涉及到网络、习惯、需求等等,常用并不一定等于最强。

所以我们再来看看用户心中最强大模型的数据。这个比例就有意思了。

GPT4一柱擎天,真正的遥遥领先。

不管评测机构、公关文怎么说”超越”。用户真实使用下来以后,他们的心智和认知就是如此。以极度碾压的姿态完胜。

第二名是GPT3.5,第三名是Claude,而这一次数据更夸张,国外大模型直接拿走了84%的比例,认为国产大模型最强的人,只有19%

国产前三名和常用榜单一致,文心一言在国产阵营中大幅度领先,76票,第二还是智谱清言,46票。

最有意思的一个数据是:在最常用榜单里, 最常用文心一言和智谱清言的313个人中,在认为最强的AI大模型上,有79.8%的人,认为最强大模型是GPT4 …至于还投给GPT3.5和Cluade的比例,我就不放了,留点面子。

在使用场景的比例上,可以发现基本都是以工作场景为主。

创意写作占比22%,办公助理占比22%,学习/教育占比20%,代码辅助占到14%。

基本都是工作场景,而情感对话和娱乐,加起来仅仅只有10%而已。

这基本上也可以看出,用户真正的需求在哪里。工作流嵌入实现降本增效才是唯真正的核心。

从场景上去看GPT4、文心一言、智谱清言的雷达能力图,是这样的。

可以非常明显的看到, GPT4是多边形战士。而文心一言用户更倾向于用它进行创意创作,而智谱清言用户更倾向于将它作为办公助理去实际的解决问题。

这个小调研,可能并不能跟主流机构们去比。它不客观也不全面,跟没有打榜和跑分,仅仅都是用户自己主观的认知。

至少在用户认知里,牛逼的还是GPT和Claude,国产里面还可以的只有御三家: 文心一言、智谱清言、讯飞星火 。

至于其他的国产大模型,用户们可能听都没听说过。

不管怎么样,我觉得还是正视差距为好。

我为什么一直都很喜欢智谱这家公司?

因为他们真的不吹牛逼,踏踏实实的干事,客观的承认自己的不足。比如智谱8月发的这片文章。承认自己跟GPT4的差距,承认目前只能达到GPT4的1/4的Agent的能力。

再看看别人,前几天跟GPT4旗鼓相当,今天全面超越GPT3.5。。。

长点心吧,现在的用户们都长大了,他们不傻。不是一两句公关稿就能忽悠了。

我尊重一切踏踏实实、不吹牛逼、认认真真做事的公司和人。

我也愿意全力支持这样的公司和人。

毕竟现在这个时代,要脸,且不愿意忽悠的人啊。

真不多了。

⭐~感 恩。

关联主题