我让10个大模型又参加了完整版数学高考，第一名居然是它。。。

摘要

1) 一句话总结 作者对10个大语言模型进行了满分150分的完整版高考数学测试，结果显示讯飞星火和豆包以145分并列第一，展现出AI在数学解题能力上的快速进化。

2) 关键要点

测试范围：测试包含单选、填空及解答题的完整高考数学卷，参测模型包括智谱Z1、Kimi1.5、文心X1、OpenAI o3、DeepSeek-R1-0528、讯飞星火、豆包、Qwen3、Gemini 2.5 pro、混元T1等10个模型（Claude 4因封号未参与）。
评分规则：满分150分；解答题按小问估算赋分，且严格按照最终结果是否正确给分（不看步骤）；每道题测试3次，按正确比例给分。
题目处理：纯文本题转换为LaTeX格式输入；带图的多模态题直接截图作答；无多模态或无法传图的模型，取其他多模态模型得分的平均分。
解答题表现：大部分模型在解答题部分表现优异，正确率超出预期。
得分与排名：
- 第一名（并列）：讯飞星火、豆包（145分，仅错第6题）。
- 第三名：Qwen3（143.3分，解答题全对，填空题因单次失误扣分）。
- 第四名：Gemini 2.5 pro（139.7分，解答题失误较多）。
- 第五名（并列）：混元T1、文心X1（比第四名低2.7分）。
行业对比：对比2023年初测时的糟糕表现，当前大模型的高考数学水平在两年内已达到优秀学生标准。

3) 风险与不足

图像理解与几何短板：多模态模型在处理需要作辅助线的图像理解题（如单选第6题）时几乎全军覆没，仅OpenAI o3在三次测试中答对两次。
过度推理风险：部分推理模型（如DeepSeek-R1-0528）因思维链过长，在处理复杂度不高的高考题时容易过度发散导致出错。
多模态功能缺失：部分模型仍缺乏多模态能力或在推理时不支持图片输入，无法独立完成带图题目的作答。

正文

昨天，我不是发了几个大模型参加数学高考的测试文章嘛。

没想到热度挺高，大家还挺关注的。

不过，很多评论区的小伙伴也说，根本看不出来区别。

因为缺了对AI难度最高的单选第6题，还有后面那些解答题。

那我想，不如再把模型补上，加上全缺失的智谱Z1、Kimi1.5、文心X1，（不带Claude 4，封号斗罗，我恨他），再做一个，完整的满血版的数学高考，让大家最直观的，感受一下这些模型的数学能力水平。

让大家看看，满分150分，每个模型到底多少分，哪个模型能拿高考数学状元。

因为要做解答题了，和选则填空不太一样，所以我还是单独定了一下规则，规则如下：

数学大题往往都有两到三个小问，但是每个小问具体的赋分都不太一样，邀请了朋友（高中老师）来估摸一下每个小问的分数，如下，都取后者：

高考大题往往会按照步骤给分，但是主要我也看不懂步骤（勿喷），所以这里我们不妨对大模型严格一点，按照结果是否正确来给分。
每道题任然使用大模型跑3次，根据正确比例给分。
依然所有的文本题，都使用LaTeX编辑器转成LaTeX文本格式，再扔给大模型进行回答。

带图片的多模态题也加入测试，直接截图进行作答，没有多模态或者推理时不能传图的模型，取其他所有多模态模型得分的平均分。

以上。

在几个朋友@东毅、@倒放、@云舒、@ 绛烨帮我kuku跑了好久之后，我们终于得出了结论。

这的，又一次干到了凌晨4点。

不过，最终的得分和结论，非常出人意料，也出乎我的意外。

先看对错。

对的全部都是✅，错的就是❌，如果是有部分对，就是⭕️，没有多模态的，就写没有多模态。

我说实话，这一片的绿，还是有点超出我的预期的，我本来以为，解答题会难住一堆大模型，没想到，几乎大部分都是对的，而单选题第6题，反而成了，所有大模型的噩梦。

涉及到图片的理解，对于广大高考学生，轻轻松松做一条辅助线就可以解决，但是所有的多模态大模型，几乎全军覆没，也就openai o3 在三次回答中，对了两次。

DeepSeek-R1-0528的表现不如其他的推理模型可能是因为他的推理思维链很长很长，而高考题并没有那么复杂，所以导致，想着想着，就想歪了。。。

真的发现，有时候想的短一点，正确性可能会更高。

所有的答案，都在这了，我们是结结实实的，把每个大模型、每道题，跑了3次。。。

下次一定要抽空做个脚本，这事用人干是真的顶不住= =

那最后，终于，要公布我们的测试最终得分了。。。

这个排名，真的让我有点意外。。。

这里我插一句，我对天发誓，这篇文章不是广告，我也和科大讯飞还有豆包没有任何利益关系，在测试过程中也没有任何弄虚作假或者不遵守规则。

但是实实在在的，就是这么发生了。

在我的测试中，讯飞星火和豆包除了第6题错，以其他题目全胜的姿态，145分的超高分，并列夺得了第一名。

而Qwen3，解答题全对，但是在填空题时，因为roll错了1次对了2次，产生了失误，丢了宝贵的1.7分，以143.3分，屈居第三。

Gemini2.5 pro，解答题拉了跨，139.7分，位列第四。

混元T1和文心x1，解答题失误稍微多了一些，比Gemini 2.5 pro多错了一点点，差了2.7分，并列屈居第五。

很有意思，太有意思了。

我其实很久没就没有测试测的这么开心过了。

2023年，我第一次测AI高考数学题的时候，那时候大家只有嘲讽。

强如大模型，不识一二三四五。

短短两年，对于高考来说，几乎都能轻松达到一个优秀学生的地步。

AI啊，进化还是太快了一点。

也许这就是我爱这份工作的原因吧。

它总能带给我一些未知，一些惊喜，还有一年抵十年的回忆。

所以，这场AI高考，就到这里画上句号吧。

天边泛起肚白。

新的一天。

又到来了。

wzglyay@virxact.com

wsl-docs

探索

我让10个大模型又参加了完整版数学高考，第一名居然是它。。。

摘要

正文

关联主题

关系图谱

目录

反向链接