大模型盲测竞技场到底是个啥？

摘要

1) 一句话总结 LMArena（原Chatbot Arena）是一个由加州伯克利团队创立的大模型评估平台，通过用户匿名盲测和Elo积分系统来衡量模型的真实应用能力，目前腾讯开源的混元图像3.0在该平台的文生图榜单中击败闭源模型登顶。

2) 关键要点

昨晚刷到了一条推文。

大概意思就是，LMArena这个大模型竞技场上的排行榜更新了，在用户盲测中，现在文生图第一不是Banana和即梦4.0了。

是腾讯家的混元图像3.0，而且这玩意是开源的，以开源击败闭源。

然后今天又看到了很多人在发，但是也看到了一些群友的讨论，说这个竞技场到底是个啥？啥又是盲测？以及，这个排行榜它靠谱吗。

所以感觉可以简单的聊聊，LMArena这玩意不太一样的地方，还是蛮有意思的。

23年24年的时候，我们判断一个模型牛不牛逼，排行第几，主要靠的是跑分，也就是拿一堆标准化的评测集让大模型去测。

其实就跟我们传统的考试没啥区别，就是纯做题，谁分数高，谁就牛逼。

但是这玩意其实带来了一个现实生活中常常遇到的问题。就是，大模型变得特别特别会做题，非常的应试，但是你真让他干点活，一干一个不吱声。

23年的时候很多国产大模型就是靠跑分宣发，在XX上又超越GPT-4啦，大家懂的都懂。

那时候，天下苦这种应试久矣，就想着，能不能有个更公平的玩意，能真正客观的评价大模型的能力的。

于是，LMArena出来了，这玩意其实之前是23年加州伯克利的极客们搞的，之前的名字叫Chatbot Arena。

最核心的规则，就两个字，盲测。

你在他们的网站上，输入一个指令，比如“帮我画一只太空里的熊猫”，系统会把指令同事发给两个匿名的随机挑选的模型。然后，这两个模型会同时把它们的答案返回给你，一个叫模型A，一个叫模型B。

你要做的，就是你按照自己的品味，选出你觉得更好的那一个。

在你做出选择之前，你完全不知道模型A和模型B，到底哪个是banana，哪个是腾讯混元。

当你做出选择之后，才会揭晓谜底，告诉你刚刚是哪两个模型。

你每一次的选择，都会被计入一个游戏行业常用的Elo积分系统，就是那种你们天天打的排位赛，赢了的模型，会从输了的模型那里，拿走一点积分。

久而久之，经过成千上万次来自全世界各地用户的盲测对决之后，那个积分最高的模型，就是大家用正儿八经的投票，投出来的第一名。

这个就是竞技场的玩法，现在越来越权威越来越主流。

因为它跟传统排行榜最大的不同，在于它衡量的，是真干活咋样。

真的好，用户就会用脚投票。

这个东西，非常主观，但又无比重要。

网址我放在评论区，大家感兴趣的也可以自己去玩一玩。感受一下竞技场的魅力。

以上。