给大模型排名,两个博士一年干出17亿美金AI独角兽

硅基观察Pro·2026年01月15日 21:40
寻找模型的“北极星”

AI模型能力争议从2025吵到2026,一家靠“给模型打分”的公司率先跑成了独角兽。

本月,随着一笔1.5亿美元融资的落定,AI大模型评测机构LMArena,估值冲至17亿美元。 

这个起源于伯克利校园的项目,看似偶然,实则精准命中了AI时代一个日益尖锐的痛点:当传统的考试框架被模型反复“刷题”、逐渐失灵,我们该如何判断一个模型是否真正有用? 

LMArena的答案简洁而颠覆:把裁决权交给用户,让每一次点击成为投票。日均上千场对战、数万次匿名比拼在此上演,也成为所有大厂不敢缺席的“试金石”。 

在争议与流量齐飞中,LMArena在2025年9月完成了关键一跃:将数千万次人类偏好数据,封装成B端评估服务。产品仅上线4个月,其年化经常性收入突破3000万美元,OpenAI、Google、xAI等头部AI企业均成为其核心付费客户。 

LMArena或许并非完美的答案,其众包模式也始终伴随着“不够专业”、“易被操纵”的批评。 

然而,它的迅速商业化与估值飙升,如同一面刺眼的镜子,尖锐地揭示了旧有评估体系的失效,并将选择权部分交还给了用户。 

当刷榜不再可信,用千万次匿名对决选出“好用”的AI

从2025 年开始,AI 行业出现了一种微妙却普遍的情绪变化。 

模型还在发布,榜单还在刷新,但兴奋感正在快速衰减。一次次参数升级、一次次排行榜登顶,越来越像一场成本高昂却回报有限的表演。 

产品落地节奏跟不上模型宣传节奏,甚至连微软内部的研究人员,也公开谈到自己正在经历“AI 疲劳”。 

更深层的问题在于,榜单正在塑造一种并不健康的激励机制。 

当模型能力被压缩进有限的基准测试中,优化目标就会迅速收敛。 

面对开放式问题,不同模型的回答在结构、措辞、推理路径上高度相似,看似稳健,实则趋同。创造力下降并不是因为模型不够强,而是因为它们被训练成了“会考试的学生”。 

华盛顿大学教授朱邦华曾指出,这正是当前评测体系的核心缺陷。 

基准测试数量有限、覆盖场景狭窄,模型极易产生过拟合。它们学会的并非理解与推理,而是如何针对题库进行“应试准备”。静态测试的存在,本身就在引导模型向固定解法靠拢。 

在这一背景下,行业开始重新讨论一个更现实的问题:如何评估模型的真实能力? 

答案正在从排行榜迁移。比起分数高低,人们开始关心更具体的维度:模型是否容易集成进真实系统?在专业场景中是否稳定可靠?能否在长期使用中保持一致表现?以及,它是否真的理解业务语境,而不是给出看似正确的通用答案。 

也正是在这种集体焦虑中,一个“匿名选手”的走红,提供了另一种可能性。 

2025 年 8 月,一个名为 nano-banana 的模型,悄然出现在 LMArena 的图像编辑竞技场。没有发布会,没有技术白皮书,甚至连模型名称都是匿名的。平台采用完全盲测机制,用户只能看到结果,通过对比投票来判断优劣。 

短短两周,这个模型累计获得超过500 万次社区投票,其中直接胜出票达到 250 万张,以明显优势登顶榜首。 

流量随之涌入。LMArena 的整体访问量在当月增长了 10 倍,月活用户突破 300 万。随后,谷歌正式认领了这位“匿名选手”,其真实身份是 Gemini 2.5 Flash Image。 

回头看,这并非一次偶然事件。 

最早的扩散来自Andrej Karpathy 的转发,随后 OpenAI、Anthropic 等头部厂商的模型陆续接入。原本只是一个对比工具的平台,逐渐演变为一场围绕真实用户体验展开的“模型对决”。 

连思维链CoT 的提出者 Jason Wei 也参与了讨论。他指出,好的评估体系应当聚焦智能的核心能力,比如语言理解、数学推理和问题解决,并且需要足够大的样本规模与清晰的判断标准,而不是不断叠加复杂但脱离实际的指标。 

某种程度上,LMArena 恰好踩中了这一共识。 

它的核心设计并不复杂,用户每次提问,系统随机抽取两个匿名模型同时作答,结果并排展示为“回答 1”和“回答 2”。用户从有用性、准确性、贴合度、安全性等角度投票,也可以选择平局或都不满意。甚至连用户的提问本身,也会被纳入评估数据。 

这种机制天然贴近真实使用场景。编程、写作、逻辑分析、法律解读、多轮对话、多模态生成,都不是被拆分成单项能力测试,而是在完整任务中直接对比。 

例如,在测试代码能力时,用户可能要求编写一个函数,用于提取网页中的h1 到 h3 标签。一个模型给出结构完整、包含异常处理、可直接运行的代码,另一个却遗漏依赖或存在逻辑错误。投票结果不需要解释,胜负自然分明。 

当类似对比累积到数万、数十万次,模型在特定能力维度上的稳定差异,开始显现。 

排名并非主观印象,而是通过类似国际象棋排位赛的Elo 评级系统计算得出。每一次胜负都会影响评分,长期来看,只有在大量用户偏好对比中持续占优的模型,才能保持高位。 

LMArena 甚至会主动拉开差距。 

在Arena-Expert 模块中,平台刻意筛选出约 5.5% 的“专家级”提示,作为难度更高的测试样本。这些问题往往更复杂、更偏边缘场景,用来观察模型在高压情况下的表现分化。不同难度区间下的胜率变化,也成为分析模型能力上限的重要依据。 

围绕具体需求,平台还衍生出多个专项竞技场,包括Code Arena、Search Arena、Image Arena 等,将提问、生成、比较、投票整合为一个连续流程。用户不是来“看榜单”的,而是在完成自己任务的过程中,顺便完成评测。 

这种评测方式的意义,在中文场景中体现得尤为明显。 

在2025 年 11 月发布的中文榜单中,国产大模型首次实现对国际模型的系统性反超。前十名中,国产模型占据八席,阿里巴巴的 Qwen3、智谱 AI 的 GLM-4.6 等模型,在真实中文任务中的胜率显著领先。 

可以说,LMArena 用一种新的方式,构建了评估模型真实能力的新基准。 

从免费榜单到B端服务,模型评测市场加速商业化

在LMArena 出现之前,AI 评测并不是一个商业意味浓厚的赛道。 

过去十多年里,这项工作主要由学术机构或开源社区维护。它们更像一种行业公共产品,不直接变现,而是通过提供统一、可复现的评估框架,建立学术影响力与话语权。榜单存在,但目的不是竞争,而是共识。 

真正的变化,发生在大模型产业化之后。 

随着模型数量激增、应用场景外溢,评测不再只是研究工具,而成为支撑整个市场运行的基础设施之一。模型要进入企业系统、要被采购、要被对比,评测开始承担“决策前置”的角色,其市场空间也随之被迅速放大。 

很少有人想到,这条商业化路径的起点,其实是一场极其朴素的学术实验。 

LMArena 最早由卡内基梅隆大学、加州大学伯克利分校以及 LMSYS 相关成员共同发起。 

2023年,在加州大学伯克利分校电子工程与计算机科学系攻读博士学位的Anastasios N. Angelopoulos和Wei‑Lin Chiang创立了Chatbot Arena,这即为LMArena的前身。 

项目最初的目标非常简单:对比Vicuna 和 Alpaca 两个模型,看看用户更喜欢哪一个。 

但这个“随手做的对比实验”,最终演化成了一个被行业默认采信的公共竞技场。 

截至目前,LMArena 的月活跃用户已达到 500 万,覆盖超过 150 个国家;平台每月产生的模型对话超过 6000 万次,日均进行上千场实时匿名对战。几乎所有头部模型厂商都已入场——从 OpenAI、Anthropic、Google、Meta,到 DeepSeek、混元、千问、xAI、Microsoft,无一缺席。 

更值得注意的是,头部公司已不再只是“参与评测”,而是主动将其作为新品试验场。Google、OpenAI 等厂商,曾将尚未公开发布的 Nano Banana、Gemini 3.0 悄然接入 Arena 进行内测。这种行为本身,意味着 LMArena 已成为行业默认的“试金石”。 

模型集中,自然也带来注意力的集中。 

根据Cohere 等机构对 2024 至 2025 年间超过2800万条模型比较记录的分析,在用户投票与交互数据中,Google 与 OpenAI 两家合计占比约 40%;而其余 83 个开源模型加在一起,仅占 29.7%。Arena 看似开放,但头部效应依旧显著。 

随着榜单影响力外溢,LMArena 的定位也开始发生变化。 

2025 年 9 月,在完成大额种子轮融资后,团队推出首个商业化产品“AI Evaluations”,正式进入B端市场。 

该产品主打定制化评测,核心卖点在于可在企业私有、脱敏数据环境中完成测试,绕开“敏感数据无法在公开平台评测”的长期痛点。 

在具体设计上,“AI Evaluations”已能结合企业脱敏后的业务数据,在“听不听话、说不说胡话、合不合规、多步任务能不能一次跑通”这四项上给模型打分,最终会输出模型在特定场景的胜率、短板、答案差距,输出场景化胜率分析与能力短板报告。 

更长远的计划,则指向平台积累的核心资产——人类偏好数据。 

LMArena 正尝试利用数千万条社区投票数据,训练自己的 RLHF 模型,让评测结果反向参与模型优化。这一步的意义在于,它开始走出“量尺”的定位,逐渐嵌入模型研发链条,成为训练流程中的一部分。 

不过,LMArena 也并非没有隐患。 

在行业内部,人们通常将LMArena 描述为一种“基于氛围的基准”,或一个众包评测平台。匿名对战、集体投票、动态排名,这种解释直观,也基本符合平台自身的叙述方式。 

但正是众包机制,让它始终站在方法论争议的中心。 

质疑主要集中在两点:投票结果的可靠性,以及用户偏好的倾向性。Andrej Karpathy 曾提醒,外界很容易过度迷信排行榜,把排名直接等同为模型真实能力。 

Cohere 与斯坦福研究人员的进一步质疑更为尖锐:成对评估的问题在于,你并不清楚用户究竟在比较什么——是正确性、风格,还是回答长度?不同因素在投票中的权重并不透明。 

意思是,模型可能因为回答得更“啰嗦”、“讨喜”而胜出,而不是因为答案更准确、更有用。 

真的有人用数据佐证了这一点。Surge AI的一项抽查发现,在500组投票中,52%的获胜回答包含事实错误,39%的投票结果与事实严重不符。用户确实显示出对更长、带有emoji、格式精美回答的偏好,即使这些答案在正确性上并不占优。 

更极端且讽刺的案例来自Meta。 

其提交的Llama 4系列实验性对话模型,曾凭借充满emoji和谄媚语气的大段回答冲至总榜第二,但公开发布版仅排32。 

扎克伯格承认针对Arena投票偏好优化。后续研究披露,Meta在Llama 4发布前共提交36个私有变体反复测试“刷分”。 

这意味着,历史再次上演了。 

当评测标准被固化,资源充足的科技巨头就能像备考一样反复刷题;而初创团队,则被迫在有限资源中分流精力,应对“标准考试”。这恰恰是行业此前试图摆脱的问题。 

作为回应,LMArena已更新规则,所有提交模型必须可公开复现,否则下架。 

但争议并未就此消失,反而催生了新的竞争形态。 

例如,Scale AI 在 2025 年 9 月推出 Seal Showdown,强调付费专家评估,由律师、教授、医生等专业人士直接打分,试图以“低噪声、高专业度”与众包模式形成区隔。 

与此同时,评测范式本身也在继续外扩。 

越来越多平台开始强调垂直化与实战化:更深度的专家标注、更接近真实世界的挑战任务,甚至出现像nano1.ai 推出的 Alpha Arena 这类产品,让不同模型在同一模拟或真实的加密市场环境中,使用相同资金与提示进行交易,以收益和策略稳定性定胜负。 

这类评测难以复现,却极度贴近商业落地。 

总而言之,LMArena已从一个有趣的学术实验,成长为影响AI研发风向的基础设施。它的兴起、争议与进化,也映射出整个行业对模型评估的理解正走向更深入、更多维的阶段。 

本文来自微信公众号“硅基观察Pro”,作者:朗朗,36氪经授权发布。

+1
6

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000
36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业