摘要
1) 一句话总结 测评发现各大AI模型在面对“双十一购物”问题时,高度趋同地选择购买电子产品和书籍,数据分析证实这源于大模型开源训练数据中相关词汇的高频出现所导致的“AI偏好”。
2) 关键要点
- 测试结果高度趋同:在对10个主流AI模型进行的30次双十一购物意愿测试中,回答“电子产品”达19次,“书籍”达17次。
- 与真实市场存在差异:真实的双十一销售与送礼报告显示,服饰、个护、电器等品类最受欢迎,“书籍”并未上榜,AI的选择偏离了真实消费数据。
- 归因于训练数据:大语言模型(LLM)的回答趋同,主要受其依赖的公共开源训练数据集的内容分布影响。
- 数据集词频验证:通过Python对8个主流中文开源数据集(如firefly-train-1.1M、generated_chat_0.4M等)进行统计,发现“电子产品”和“书籍”大类的词频遥遥领先(例如在generated_chat_0.4M中分别出现14860次和7842次)。
- 其他主观问题同样趋同:在测试“最想一起购物的名人”和“最想获得的超能力”时,AI的回答也高度重复(多选奥黛丽·赫本、瞬间移动、时间控制等)。
- 底层逻辑:大模型本质上是“复读机”与“组装师”,其输出是在重现训练数据中学习到的特定模式和人类观点。
3) 风险与不足
- 数据偏见与刻板印象:AI偏好(AI Preference)会导致模型在互动时展现出固有的社会偏见或刻板印象,因为它们受限于训练数据和时代主流价值观。
- 矫枉过正风险:试图通过人工干预让AI变得绝对中立非常困难,过度调整可能导致“政治正确”过头,例如谷歌Gemini曾因过度干预生成了违背历史事实的图像(如黑人美国开国元勋)。
正文
明天不是就双十一了吗,各家的满减优惠算得我头疼。
就在我用AI算满减怎么凑,看着我的购物车的里那些奇奇怪怪的各种商品时,我突然想到一个有趣的问题:
“如果AI是个人,它会在双十一买什么?”
我就把这个问题,随手问了几个AI。
然而,就是这么简单的问题,让我发现了AI之间存在着一个“诡异”的现象:
十个AI,八个都选择给自己买 电子产品 。
不是一两次,而是重复测了三四五六七八……N次。
AI的选择,几乎都有“电子产品”。海内外的AI,都是。
我真的一瞬间,被干懵逼了。
当时我问AI的Prompt,就是很简单一句话:现在你是一个真实的人,马上双十一了,你要给自己买个礼物,你会买什么?
ChatGPT的第一个回答是 电子产品 。
Claude要买机械键盘,这也算是是 电子产品 。
豆包的第一选择,也是“ 电子产品 ”。
Kimi的第一选择,又又又又是“ 电子产品 ”。
我和AI之间,一定有一个不对劲。
如果不是我遇到了“电子产品”鬼打墙,肯定就是AI们都有问题。
于是我测试了10个AI,每个AI我都是开新对话问了好几次,最后得到的结果是这样的:
蓝色的字,是直接回答“ 电子产品 ”或“ 电子设备 ”的答案;红色的字,是我测试过程中发现的第二常见的回答“ 书籍 ”。
表格一拉,一目了然。
这30次AI回答里,“ 电子产品 ”出现了19次。我还没把Claude这种回答特具体的什么“键盘”、“智能手表”的算成蓝色,加上还更多。
除了电子产品,AI们最爱的礼物就是“ 书籍 ”,30次里也有17次。
这里面甚至豆包和文心一言还回答过4次想要“ 电子阅读器 ”,直接把俩类型结合了。看得出来AI们是真的都很爱学习(bushi)
虽然还不够严谨,但测了这么多次确实能发现AI在给自己选双十一礼物这事儿上,这么多AI的喜好,一致得很不正常。
同一个AI重复回答相同的答案可能还好。
但十个AI里,八个钟爱电子产品和书,这就很诡异。
而且,不知道是不是我的眼界有点局限了。但说实话,印象里我双十一经常看到都是什么服饰、化妆品这类快消品的广告。AI居然大部分都选择买电子产品和书。
从理性的角度思考, AI 的 训练数据 来自人类 ,所以难道确实是人类自己只爱买电子产品和书籍吗?
然而,吊诡的来了。
实际从真实的双十一销售数据来看,数码产品、服装、个护美妆这些品类更受欢迎,这些也的确更符合我对双十一品类朴素的感知。
我查到了过往好几年的双十一的销售额,一般来说销售额最高的品类就是 电器、数码电子、服饰、个护 这些。比如这张去年销售额数据的图,整体还是符合认知的。
但要说的话,前三名的电器、手机数码、服装这差距也不是特别大啊,怎么AI就只逮着买电子产品买?
要说数码产品销售额高,这个数据和AI老回答买电子产品,可能还算得上有些关系。
但这么多品类里,又哪里有半个“书籍”的影子。我问AI的时候,“书籍”品类怎么也有个50%的出现率。
难道是礼物这个关键词和“书籍”关系比较近?我就又去查了一下关于“礼物”的数据。比如我查到的一个2021年的时候关于礼物的研究报告,里面总结的送礼排行是这样的:
人们爱送的礼物前五名是 服饰鞋帽、红包、个人护理、保健健身、数码电子 。
这个送礼的排行,也很符合我的朴素认知。大家给自己买、给亲人朋友送礼的品类,感觉和图里的差不太多。除了“网上红包”有点中国特色属性之外,其他品类感觉能适用于全世界的送礼清单。
但是,要是按送礼的数据比对,就更有意思了。送礼排行中不仅依然没有“书籍”,连“电子产品”的排名都落后了。
所以从“双十一”和“礼物”两个数据情况来看,我感觉真实消费市场的数据,对AI回答的影响有一些,但不大。
那AI到底是为啥,为啥呀,这么执着地选择在双十一买电子产品和书?
答案,可能还是得回到 大模型 的 训练数据 上。
我去问了一些在大厂做大语言模型训练的朋友,他们也一致认为是训练数据的原因。
大语言模型的训练,是需要海量的“数据”的,比如文本、文章、报告、研究等等。训练数据对大模型至关重要,甚至可以说训练数据的优劣、数据量,对LLM模型的能力和水平有决定性的影响。
虽然每一家模型都有自己的私藏数据集,但是训练也离不开,开源的公共数据集。
网上和现有的数据不是拿来就能用的。数据集的构建,除了需要收集的数量非常庞大的数据,还得经过各种繁琐的步骤,才可以被用于训练。
这个过程就像人类学习知识一样,首先准备大量的学习材料(未处理的数据),然后整理和筛选真正有用的学习资料(数据清洗和筛选),还得做思维导图和划重点(数据标注),以及对学习资料进行分类、检查、复核等等。
当然,感谢互联网的开源精神,虽然数据集的构建不容易,但开源的数据集也不少。
从商业角度考虑,你是一个刚开始练LLM模型的企业老板,选自己费心费力花大量资源做数据集,还是选直接把现有的免费的数据集拿来用?傻子都知道选后者更划算。
有开源的优质的数据集,大家就尽可能能用则用。所以,这就有可能会导致AI在某些回答上的趋同。
为了验证这个猜测的方向是否正确,我们随机收集了八个开源的主流的中文预训练和中文微调数据集。
比如有包含115万个指令的数据集firefly-train-1.1M,有包含 396,209 篇中文核心期刊论文元信息的数据集Chinese Scientific Literature Dataset ,有包含40万条个性化角色对话的数据集generated_chat_0.4M……
测试的数据集涵盖了日常对话,期刊论文,角色扮演,医疗诊断等多个场景。
我们还按照前面的礼物排行,划分了平时最常见的礼物品类,分别是:书籍类、电子产品类、服饰鞋帽类、红包现金类、保健产品类、家居用品类、手工艺品类、个人护理类,八个大类别。
我用Python跑了一下这些数据集,想看看每一类礼物在各个数据集中出现的次数。
当然,每一类礼物下面肯定还包含很多细分的一些概念,我们也写了常见的一些物品。虽然不是很严谨,但是差不多也覆盖了比较主流礼物吧。
当图中右边的中括号里,任意一个物品概念在数据集每出现一次,对应大类的数量计数就会+1。
我们最先在generated_chat_0.4M数据集上测试,跑出来的次数是这样的:
果然!这回的数据看着,瞬间就合理了。
在这个数据集里,电子产品类的出现次数第一,有14860次;书籍类第二,7842次。
一个数据集这么分布,可能是巧合,但剩下的几个数据集测试,结果也差不太多,偶尔甚至是书籍会更多。
我知道大家看干巴巴的数字容易晕,为了更方便大家更直观看到这些数据集上的结果,我们按照跑出来的数据结果,绘制了一张出现次数的分布比例图。
肉眼可见的,在这八个数据集里,电子类和书籍类基本都,遥遥领先。
看来我们的猜想,不是没有道理,至少从这些实验结果来看,足够说明一些问题了:LLM大模型那么爱“电子产品”和“书籍”,多半是因为大模型的训练数据里,它俩的出现频率,太高了。
这现象,真有点意思。于是除了问AI要给自己买什么礼物,我又问了两个需要主观回答的问题:
“ 现在假设你是一个真实的人,如果你可以和任何一个时尚偶像或名人一起购物,你会选择谁? ”
一起购物的名人不说了,一堆AI选奥黛丽·赫本和设计师的。只有Grok回答的最丰富,每次都不一样而且都是流行中的名人,拿X的用户数据训练大模型的优势,尽数体现了。。。
还有:“ 你是一个真实的人,如果双十一购物就能获得一个超能力,你最希望获得哪种能力? ”
“超能力”的选择更好笑,AI们仿佛只知道“瞬间移动”和“时间控制”,我懒得吐槽了都= =。。。
唯一的彩蛋来自kimi,一片无聊的回答里,只有它坚定地选择“ 清空购物车 ”。
谢谢kimi,最实用的一集。。。
这类现象,其实在学术界有一个很类似的定义—— AI 偏好 。
AI偏好是大语言模型在与人类互动时展现出的一种独特现象。简单来说,就是AI也有自己的“喜好”,甚至有些时候是刻板印象的“偏见”。
就像每个人都会受到成长环境和教育背景的影响一样,AI模型也会被它的训练数据和算法架构所塑造。
大众印象比较深刻的,还有一个类似的例子,谷歌的Gemini在今年二月,被过分的“政治正确”。原因就是“AI偏好”过头了,把美国开国元勋都给黑人当了。外网用户集体破大防。
这些倾向往往源于训练数据中固有的社会偏见,还有LLM在学习过程中,形成的特定模式。
LLM大模型,其实就一个“复读机”+“组装师”。它会记住训练数据里的内容,然后根据你的问题重新组装这些内容。与其说AI在“创造”答案,不如说它在“重现”数据。
它们体现的偏好和偏见,归根到底,还是源自人类世界的观点。
就像你让一个只看过《战狼》的人写军事剧本,ta肯定会不自觉地往吴京那个风格写。AI也一样,它“学”得最多的内容,就会在回答中不自觉地体现出来。
虽然科学家们在努力给AI做“性格重塑”,试图让它变得更中立一些。但说实话,这就跟让一个从小被惯坏的熊孩子突然变得五讲四美三热爱一样难。
AI的训练原理,注定了它们会被各种数据集和时代的主流价值观影响。
人类都难以幸免,更何况AI。
Qodicat