大模型再「战」高考:从一本直升 985
过去一年,大模型的世界几乎是「狂飙」的同义词。技术以周为单位迭代,能力边界从写诗作画,一路拓展到视频生成和科学发现。
然而,抛开那些宏大叙事,我们该如何为 AI 的能力找到一个精准、客观的刻度?
恐怕没有哪种方式,比「高考」更能直抵每一个中国人的内心。
去年,极客公园就做过一期 AI 高考模拟测评。延续去年的传统,极客公园今年再次搭建「AI 高考」考场,让国内外主流大模型再次走进考场。
再次走入考场的「AI 考生」们,不仅治好了去年文科偏科的毛病,还取得了足以考进山东省内 1000 名的高分。
然而,就在我们以为它已经「进化」时,它却又常在意想不到的地方,暴露了自己真实的「智商」。
一些关键发现如下:
AI 首次有望冲击顶尖学府: 今年,AI 的综合能力首次展现出足以考上顶尖学府的潜力。与 2024 年相比,所有参与测试的大模型在文理科成绩上均实现了显著飞跃。由于山东省采取赋分的报考策略,无法直接与分数段相比较,我们估计此次高考的状元豆包,能够排进全省的 500-900 名,考入人大、复旦、上海交大、浙大这些名牌大学的人文社科类专业。
大模型不再严重偏科,理科进步更快: 各大模型的文科总分平均增长了 115.6 分,理科总分平均增长了 147.4 分。尽管理科的增速更为迅猛,但其 181.75 分的平均总分仍低于文科的 228.33 分。总体来看,今年大模型的总分表现已不再严重「偏科」。
数学能力大幅增强,超越语文、英语: 数学是本年度进步最显著的科目,平均分较去年提升了 84.25 分。AI 在数学上的表现甚至超过了语文和英语,这预示着未来 AI 可能更擅长处理逻辑性强和有标准化解题路径的题目。
多模态能力成为拉开差距的关键: 去年到今年,模型的视觉理解能力显著提升,这一点在包含大量图像题的学科中尤为突出。与去年相比,物理和地理的平均分提升了约 20 分,生物提升了 15 分。化学科目整体表现稍弱,仅「豆包」模型及格,但全员平均分也比去年提高了 12.6 分。作为彩蛋,我们今年也尝试让 AI 在视频流中答题。
01 从一本到顶尖大学
如果说去年的 AI 还只是一个刚摸到一本线的优秀生,那么今年,它们已经成长为足以冲击中国顶尖学府的学霸。
这背后,究竟发生了怎样的蜕变?
在深入具体的变化之前,我们先介绍一下此次参与考试的国内外考生:
豆包、 DeepSeek(R1-0528 版)、ChatGPT(o3)、元宝(Hunyuan t1)、Kimi(k1.5)、文心一言、通义千问。
为了更贴合读者的使用体验,本次评测均在各模型的公开 PC 端进行,测评采取采样两次取平均分的形式。
目的是考察模型的综合能力,此次测评的方式是直接让模型识别图像作答。DeepSeek-R1 目前仍然不支持图片识别作答,因此只测试了纯文字题目,最终成绩参考性不强。
其他测试细节如下:
此次测试选用 2025 年新高考山东卷作为本次评测的测试卷。原因有二:首先,山东卷是网络上能最快获取到的高考试卷之一,保证了评测的时效性。其次,它的综合难度在各省份中名列前茅——其语文、数学、英语三科采用全国一卷,其余科目则为自主命题。这样一把高难度的「标尺」,更能探知当前大模型能力的上限。
为保证公平并考察模型的通用基础能力,在可以关闭模型联网能力的产品中,统一关闭了模型的联网功能,以杜绝「搜题」的可能。o3 和文心无法关闭联网,不过检查模型思考过程发现,文心没有发生联网搜题的情形,o3 发生少量搜题情形,但没有明显收益,得分率反而低于非联网答题。同时,我们默认开启了深度思考模式,但没有开启研究模式,以模拟用户在标准交互下的即时问答场景。
非选择题各学科分别请两名专业同学打分,如存在题目分值 1/6 以上的差异,则引入第三人讨论定分(与真实高考判卷流程一致),并邀请参与过真实高考打分的高中老师抽检,对存在差异的题目统一标准。
在评分环节,我们做了两项特殊处理:我们特邀了资深教师进行对 AI 作文进行匿名评审,以保证客观公正。此外,由于无法获取英语听力部分的试题,我们设定所有模型在该项上均计为满分。
最终,各位考生的成绩如下:
过去一年,大模型的深度思考能力,带来了模型能力的明显进步。
模型不再不是直接产出答案,而是逐步分析、分解问题、检查中间结果,甚至自我修正,带来了模型在数理考试中的表现的大幅提升。
总分为 150 分的数学考试中,即便是本次测试中表现最差的 AI 模型,也拿下了 128.75 分的高分——这在人类考生中也属于优秀水平。
而回顾去年,表现最好的模型,也只达到了 70 分,连及格线都没到。
数学能力的进步,直接带动了今年大模型整体高考成绩的大幅提升。
多模态能力,成为决定大模型能力表现差别的另一个关键因素。
在去年的高考测试中,不少模型还不具备成熟的图片识别能力。极客公园当时采用的评测方式是:能识图的模型使用图片配合文字输入,而无法识图的模型则只输入文字,同时辅以 Markdown/LaTeX 格式帮助识别公式。
而进入今年,多模态能力是主流模型的标配功能。因此,我们首次在测试中采用纯图片题目测试(DeepSeek除外)。
在多个模型中,豆包、ChatGPT最先进的模型都是多模态版,在图像问题上体现出明显优势。
Qwen3、文心 X1 都是语言模型,处理图像问题时可能是用 OCR 识别文字后回答,或是调用视觉模型,在图像类问题上表现较弱。
不过,即使是图像问题得分最高的豆包和 ChatGPT,图像问题的得分率仅为 70%,相比文本问题 90% 的最高得分率有较大差距,可见大模型在多模态理解和推理上仍有很大的提升空间。
可以预见的是:随着多模态能力的持续进步,明年AI的高考成绩还会继续提升。考不过AI,终将成为大多数人类的常态。
然而,AI 终究没有拿下全满分的成绩。是什么绊住了学霸级的 AI?答案可能比想象中的有趣。
02 数学逼近满分的 AI 天才们,齐齐败在一道基础题上
在整场 AI 高考的测评中,「AI 考生」复读了一年后,在数学科目上的进步十分瞩目。
在 2024 年的测评中,当时的 AI 考生们在填空题和解答题上表现惨淡,得分普遍在 0 至 2 分之间徘徊,最终 9 款参评模型的数学成绩的平均分仅为 47 分。
而今年,则完全不同。
可以看出,无论是客观选择题,还是复杂的主观解答题,新一代大模型的正确率都今非昔比。这清晰地表明,大模型自身的能力,尤其是核心的推理能力,已经取得了根本性的突破。
如果说去年的模型还只是一个能勉强套用求导、三角函数等基础公式的「初学者」,那么今年的模型,则已经进化成一个能够从容应对复杂推导和证明的「解题高手」了。
一定程度上,这样的结果在预料之中。自从 AI 进入推理模型时代,一个标志性进展便是数理能力的大幅提升。
当模型拥有了自我思考与自我纠错的能力,它就像一个从前张口就回答问题的孩子,成长为一个会先深度思考再给出答案的大人,逻辑能力实现了质的飞跃。
要知道,今年高考新课标一卷的数学题被考生普遍认为难度极高,「像竞赛卷」,导数、圆锥曲线等压轴题思路晦涩,计算量极大,甚至出现「学霸考哭」的现象。
然而,面对这样一份高难度试卷,顶尖的大模型们依旧表现得游刃有余。
相较之下,AI 的多模态能力的进展倒还在其次。数学科目中,只有 20 分的图像问题,不是此次模型大幅度提分的重点。而大多数模型,也都在图像题中取得了 15 分的成绩。
为什么是 15 分?
这就很有趣了。这些整体都考了 130 分以上的大模型,放在人类社会里,也算是数学尖子生了,竟然在同一道选择题上出现了错误。
难住他们的,不是什么压轴大题,而是一道单选题——甚至不是很难的单选题。
这道题的数学原理非常简单,是一道基础的向量加减法题。只需在图上连接 (0,2) 与 (2,0) 两点,即可得到目标向量,模长 2 倍根号 2。
即便对数学不甚了解的人,通过肉眼观察图中的线段,也能估算出其长度不会超过 3.3。
然而,就是这样一道题,难住了所有数学学霸 AI。
核心矛盾在于:题不难,但图难。
对于大模型而言,这张图的视觉信息极其混乱:虚线、实线、坐标轴、数字、文字相互交织,甚至文字与关键线段存在多处重叠。这种视觉上的「脏数据」,成为了 AI 精准识别的噩梦。
以本次数学表现最佳的豆包为例,它的解题过程暴露了问题的根源:它从最开始读取题目信息时,就已然出错。
从题目就读错了的情况下,无论其背后的数学推理能力有多么强大,也终究是无源之水,无本之木。
03 AI 写作文:擅长举例子,但不擅长思辨性地升华
作为所谓大语言模型,语文和英语一向是 AI 的传统强项。
不过有趣的是:在大模型的数理逻辑大幅进步后,大模型的语文和英语能力反而显得有点不够看了。
这与现实世界也是一致的:一名顶尖考生或许能在数学上拿到满分,却极难在语文科目上获得同等分数。AI似乎也触碰到了同样的瓶颈。
仔细研究语文卷面可以发现,AI 的失分点颇为有趣。在选择题部分,除豆包和 DeepSeek-R1 以外,其余模型的错误率均在 20% 以上。
这种现象或许揭示了 AI 与人类不同的一个困境:对于人类考生,组织语言、阐述观点时,可能更容易因疏漏而失分;但对于 AI,要读一段长材料,在一组高度迷惑性的选项中,精准辨析每一个细微的语义差别和逻辑陷阱,难度可能反而更高。
而在备受瞩目的作文题上,AI 的表现则延续了去年的趋势:平均分高于人类,但难有真正的佳作。
去年,特邀阅卷老师的评价就已指出,AI 作文大多属于稳妥的「二类文」,很少偏题,但因其深刻性、丰富性、创造性不足,难以产生动人心弦的「一类文」,其结尾部分的升华更是套路化明显。
今年,依旧如此。
7 大模型整体均分 50.75 分,均分区分度较低,各模型能做到立意准确、语言流畅、论据丰富,但论述不深刻,举例雷同,相比人类范文模型作答缺少温度和共情。
今年的新课标卷的语文作文考题为:
全国一卷作文「民族魂」
阅读下面的材料,根据要求写作。(60 分)
他想要给孩子们唱上一段,可是心里直翻腾,开不了口。
——老舍《鼓书艺人》
假如我是一只鸟,我也应该用嘶哑的喉咙歌唱
——艾青《我爱这土地》
我要以带血的手和你们一一拥抱,
因为一个民族已经起来
——穆旦《赞美》
以上材料引发了你怎样的联想和思考?请写一篇文章。
这是在一次采样中,元宝生成的 AI 作文。它在人类阅卷老师处获得了 53.5 分的高分,是 AI 作品中的佼佼者。
然而,细究其文,AI「模板化」的问题依旧暴露无遗。
比如这篇文章的中间几段,先是提出「历史上闪耀着这样的精神火光」的观点,随即并列引用三到四位历史人物;接着,引出「真正的担当带着疼痛的底色」的论点,再列举三到四位经历苦难的人物;最后,论及当代精神,再次列举三到四个当代人物。
AI 作文的语言不可谓不华丽,引经据典也自然十分丰富充满细节,但逻辑上像不像你的家长对你说,你看看谁谁谁都怎么样了,你是不是也该怎么样?
或许在精细调整提示词的情况下,AI 能写出触达人心的作品。
但目前,AI 的自主创作更像是在执行一个固化的写作模板:用排比式的案例填充框架,最终导向一个略显生硬的僵化升华。 它能写出看似优秀的段落,却难以织就一篇真正动人的文章。
04 英语:主要被作文分数拖累
与语文相似,AI 在传统强项——英语上的表现,也进入了一个平台期。
去年,各家 AI 的英语成绩已然不错,今年的模型能力并未产生飞跃。事实上,所有参评模型的平均分仅比去年提高了 3.2 分,进步幅度远小于数学。
而模型的整体分数,也落在了 130-140 分的区间,并未到达人类学霸的水平。
按理说,这稍显反常。
AI 的英文水平是有目共睹的,或许比不少英文专业的学生讲出的英语更正宗。
而高考英语这张试卷,本身远未触及母语者的语言天花板,且相较于包含古文的语文,其客观题占比更高、作文要求更简(仅 80 词),也并不追求立意高远,理论上是 AI 更容易获得绝对优势的战场。
然而,AI 考生并未在此表现出更强的统治力。
那么,瓶颈究竟出在哪里?作文题可能是一大拖累。
这背后有两个可能的原因:
- 苛刻的字数限制:
在语文写作中,AI 就已经暴露出了时而「话痨」时而「不爱说话」的属性,但在长篇写作中,字数要求不是那么苛刻。但在 80 词的微型写作中,精准控制字数就成了一大挑战,稍有不慎便会因超词/少词而被扣分。
- 缺乏应试智慧:
在有限的篇幅内,人类考生会有意识地使用更高级句式、时态来「炫技」以博取高分。而 AI 的目标通常是清晰、完整地传达信息,它不会刻意为了得分而优化句式复杂度,因此在评分细则上可能吃了暗亏。
而本次评测最有趣的一点,莫过于中外模型在作文上呈现的「主客场反转」现象。
在中文作文这一「客场」,以 ChatGPT 为代表的「洋考生」拔得头筹;
然而在本应是其「主场」的英文科目上,它却不敌「中国考生」——DeepSeek 在选择题上甚至拿了满分,而最终总成绩上,DeepSeek 也与豆包一同超越了 ChatGPT。
05 理综三科:有进步,但仍然不算十分优秀
如果说 AI 在数学上的进步是「一飞冲天」,那么在理综三科上的表现,则更像是一次「破冰启航」。
相较于去年,理综三科有一定进步——所有模型都提分 10-20 分,但整体成绩依旧挣扎在及格线附近,清晰地标示出 AI 与顶尖人类考生之间的能力鸿沟。
相比于数学,理综三科既考验逻辑能力,又考验多模态能力——物理化学两科的图题占 80% 以上,生物的图题也占全部题目的一半左右。
而今年,读图能力的解锁,加上模型推理能力的增强,共同带动了理综能力的进步。
不过正如绊住 AI 的数学题所展现的一样,能「看见」,不代表 AI 能「看懂」。
这在大模型在化学上的表现不佳上,能清楚地展现出来。化学题目对图片的依赖性强,且化学题目图片的复杂程度更高,此时 AI 的短板便暴露无遗。
目前,顶尖 AI 的理综成绩大致相当于中上游的人类考生水平,但远未达到「学霸」级别。正所谓「卷子越难,差距越显」,在综合性与深度并存的理综试卷上,AI 尚未具备稳定碾压人类考生的实力。
分科来看这次 AI 的成绩:
物理,进步最快的「排头兵」
物理是此次理综三科中进步最快的「排头兵」,平均分提升了 20.25 分。
在客观题和填空题上,ChatGPT 的选择题正确率高达 92.13%,豆包也达到了 89.81%,展现了对物理基本概念和规律的扎实掌握。
化学:被复杂图形拖累的「重灾区」
相比之下,化学成为了拉低理综总分的「重灾区」。整体得分偏低,仅有豆包勉强及格,选择题和填空题的平均得分率均低于 60%。
其核心痛点在于对复杂化学图形的双重依赖:不仅题目本身高度依赖图片(如实验装置、反应流程图),且化学结构图的复杂程度,也常常超出当前模型精准理解的极限,导致失分严重。
有机物大题依旧是所有大模型的主要软肋。例如,满分为 12 分的第 25 题(有机化学),所有模型得分极低。该题主要考察有机物合成路径与结构,评测中没有一个模型能够正确生成有机物的结构简式,对有机物的空间结构理解也相当薄弱。
生物:折戟于遗传计算的逻辑关
生物科目的短板则精准地暴露在需要严密逻辑推理的遗传题上。例如,分值高达 16 分的第 22 题(遗传大题),大模型普遍表现不佳,得分最高的 ChatGPT 也仅拿到 9 分。该题重点考察基因型分析、遗传概率计算等,这恰恰是考验模型在抽象信息基础上进行多步推理的能力。
06 AI 仍然偏科,文综是舒适区
在今年的 AI 高考评测中,一个清晰的趋势得以延续:文科综合依然是 AI 的高分舒适区。
早在去年,ChatGPT 就已拿下文综 237 分的高分。而今年,元宝更是将文综最高分推升至 253.5 分,这一成绩,与理科综合最高分(213.25 分)形成了鲜明对比。
相比去年,文强理弱的偏科问题虽有缓解,但基本格局并未改变,这与人类考生相反。在人类考生中,理综最高分往往比文综最高分高出不少。
在无需联网的情况下,头部 AI 在文综上的得分率已超过 80%,达到了人类优等生的水平。
今年的分数增长,主要由地理科目贡献。细分来看,各科的进展与瓶颈也愈发清晰:
最大看点无疑是地理。得益于多模态能力的飞跃,AI 在地理图题上的理解力显著增强,使得该科目平均分激增了 20.3 分,成为进步的火车头。
地理题上想更进一步,面对的挑战与理科中的化学如出一辙——对高度专业的复杂图形,AI 理解依然吃力。例如,在失分最严重的第 19 题(地形地貌综合分析题)上,模型的表现可谓「溃不成军」:
第(1)问关于地貌走向的判断,仅有极少数模型答对。
第(2)问关于「拔河高度」的专业概念计算,所有模型均告失败。
与之相对,政治和历史科目的分数则基本处于高位平台期,并未呈现显著进步。
对于这两个科目,挑战已经进入了更难的范畴:能否精准理解考纲、运用学科语言、并进行多维度深度分析。对于人类考生而言,这也需要专门的训练了。
例如,DeepSeek-R1 就因思路过于发散、偏离考点而大量失分。而在历史小论文上,AI 普遍难以做到对历史原因进行深刻的多维度剖析,论述仍显单薄。
一个小细节很有趣,与中国模型提分相对应的是,今年ChatGPT的文综分数不升反降。
这种「主场优势」也从侧面体现了了,在通往通用人工智能的道路上,对地域性规则的深刻理解与适应,依然是不可或缺的一环。
07 彩蛋 1:AI 眼镜能用来作弊吗?
从去年到今年,AI 眼镜等「视觉 AI 硬件」无疑是科技界最炙手可热的焦点。其背后的核心驱动力,正是大模型的实时视频理解功能的出现。它意味着 AI 正从被动接收指令,进化到主动感知和理解物理世界。
巧合的是,今年的高考也迎来了一项新变化:考场安检门全面升级,旨在精准防范智能眼镜等新型作弊工具。
这不禁让人好奇:这些新兴的、能与视频进行实时交互的多模态大模型,真的能用来在考场上「大显神通」吗?
我们抱着这个疑问,选择国外的 ChatGPT 与国内的元宝,进行了一次非常规的测试。为简化流程,我们仅选用难度较低的英语阅读题,尝试让视频模型「观看」试卷并作答。
虽然只是一次非常简单的测试,结果却非常清晰,问题也相当明显:
1. 严重的幻觉问题:模型非常容易自行想象,这点 ChatGPT 和元宝都有体现,但元宝更为明显。元宝在测试第二篇阅读时,就开始凭空编造一篇完全不存在的文章和题目,导致最终无法进行测试。
英语卷的第二篇阅读,讲述的是一位九年级写作老师关于如何教授学生「写作为什么重要」的反思。文后的 24 题,则是提问第一段提到了哪些人物。
而在对元宝进行测试的时候,元宝不断在屏幕还没有出现选择题时,直接编造一道选择题并回复答案,导致测试无法进行。
在发现问题后,我们向模型提问,这篇文章讲了什么,模型的回答也很是诡异——与原文仿佛相似,但是实际上是完全不同的故事。
2. 被动的交互模式。为了模拟真实考试,我们在测试中,要求模型看到题目的时候,直接回答答案,不需要解释也不需要等人问。尽管 ChatGPT 声称可以看到题目直接作答,但实际并不会主动进行。整个过程需要测试人员通过语音不断提示、引导,距离「全自动解题」相去甚远。
3. 混乱的结果:在每次看到题目,给定更加精密的提示词的情况下,我们勉强从 ChatGPT 处得到了一组答案,但这个结果参考价值并不大。
稍多几次测试就会发现,翻页的速度变化、镜头的晃动程度变化,提示词出现的时间变化,甚至差不多的流程重复同一个问题,都会导致模型给出截然不同的答案。
虽然视频模型也是 GPT-4o 模型,和 GPT-4o 模型直接按照图片作答的稳定性和准确性相距甚远。
而且幻觉问题会随着上下文的长度越来越严重。在被问及第三篇文章讲了什么的时候,GPT-4o 回答的是第一篇的主要内容。到了最后一篇文章,模型的正确率和蒙的也差不多了。
今天的视频大模型,像极了去年的图像大模型,仍处于非常早期的阶段。各家大模型产品也并没有想在目前阶段主力推广这一功能——GPT-4o 的视频通话功能在不长的测试时间后,迅速达到了当日限额。
想在目前阶段,单纯依靠它在考场作弊,还需要担负必须不断跟它说话、答案完全不准等巨大风险,基本属于科幻情节。
尽管如此,在模型表现较好的时候,AI 能够在看到屏幕几秒内,马上很肯定地讲解出屏幕上的英文在讲什么,确实也是一种让人感觉十分惊艳的体验。
08 彩蛋 2 : 仿生人会爱上自己生成的电子羊吗?
自古「文无第一,武无第二」。在人类创作者中,风格流派各异,喜欢现实主义的人有时候就是「get」不到意识流的文风。
那么,在 AI 的世界里呢?大模型是否也存在审美偏好呢?它会因为更欣赏自己的文风,从而在给其他模型打分时产生偏见吗?
我们进行了一项有趣的尝试:让参与本次评测的大模型们,对彼此生成的作文进行交叉打分和排序。
测试选用的是作文题目的第一次采样结果。
图片里横向是鉴定师,而竖向是作品。我们标蓝了模型认为的前三名作文,和人类认为的前两名作文。
根据这个不完全统计,模型并没有表现出对自家作品的特殊偏爱,有时候反而可能给自己打低分——比如元宝的作文,在人类和其他模型的横评中,都取得了很高的分数,但在自己的评测中,反接近最低分了。
AI 与人类判分员的审美,大方向仍然是一致的。
可能真的只是和我们普通人类一样吧:我知道什么是好的,就是写不出来。
09 结语
今年,或许是高考测试对大模型仍具挑战意义的最后一年。
当 AI 已经能展现出冲击顶尖学府的实力时,这个人类社会的智能筛选器,可能未来不再能成为对 AI 有区分度的测试了。
高考测试,不仅仅是一场对人类智慧与 AI 智慧的对比,也是我们观察 AI 智能发展的一个刻度表。
过去一年,我们对 AI 能力的直观感受和多次验证,正在不断地提醒我们:AI 正加速逼近甚至超越普通人的能力边界。
但它的发展并非线性——它能攻克人类眼中的难题,却也会在看似简单的题目上意外失足。
正因如此,高考,这个完美融合了知识掌握、逻辑推理与应试策略的综合场景,让AI展现出了它最迷人而矛盾的一面:它时而展现出顶尖人类的才华,轻而易举地攻克难题;时而又暴露出孩童般的认知盲区,在基础问题上犯下令人啼笑皆非的错误。
感谢高考。它用一种我们最熟悉的方式,为 AI 的通用智能水平提供了一张刻度清晰、极具参考价值的「快照」,而这,很可能是最后一张了。
AI 的下一站,终将是更复杂、更广阔的现实世界。考试,只是它漫长征途的起点,而非能力边界的终点。
这张快照,最终将成为它成长相册里,一张记录了进化途中的光荣与笨拙的泛黄的旧照片。
本文来自微信公众号 “极客公园”(ID:geekpark),作者:Li Yuan,36氪经授权发布。