“文科生”微博,搞出一个数学学霸大模型
在巨头林立的AI赛场,一个此前可能只配坐“小孩桌”的玩家,正发起挑战。它是身在北京中关村人工智能宇宙中心、却在AI领域一直被认为技术存在感不太强的微博。
近日,微博发布了首个开源模型 VibeThinker,它以15亿的微小参数 与7800美元的极低成本,在国际顶级数学测试中获得相对高分,刷新智能极限。这一结果,无异于以轻巧之姿,刺向了“规模即智能”的行业铁律。
《真故研究室》独家对话了微博首席科学家张俊林。他直言,这是一场突破行业共识的实验。“在此之前,无人相信小模型能解决复杂问题,但VibeThinker证明了可以。” 这场低成本、高智能的奇袭,或许将重新定义AI赛道的游戏规则。
01 夺榜
“当看到VibeThinker在国际顶级数学测试中获得好成绩,我很喜出望外。”在北京的新浪总部大厦,张俊林对《真故研究室》说。
VibeThinker研发周期从今年9月到11月,为期3个月。如很多新发布的大模型一样,它需要通过“打榜”来确定自身“最强大脑”在行业中的卡位。
评估一个新的大模型的逻辑推理能力,业内有三大基础评测,分别是数学、竞赛编程和科学知识。如果得分卡位靠前,相当于一个职场专业人士,拿到某一领域的“职业资格证”。这份成绩既能为企业吸引投资、人才,也能完成对市场的宣传与对普通用户的心智教育。
VibeThinker所获的高评分,主要集中在数学领域的评测上。大模型数学领域的三个高难度测试集分别是AIME2024、AIME2025和HMMT2025。这些测试集以复杂性和挑战性著称,常用于评估大模型的数学推理能力。
其中,AIME全名叫“美国数学邀请赛”,始于1983年,由美国数学协会制定和主办,一般是由30道填空题组成。
HMMT全名叫做“哈佛-麻省理工数学锦标赛”,始于1998年,由近50道数学题组成。它是一项面向高中生的、最具挑战性的团队国际数学竞赛之一。HMMT题目难度被认为大于AIME。
作为两项极具挑战性的人类数学考试,AIME和HMMT旨在从大量数学能力优秀的学生中,精准筛选出极少数的数学顶尖精英。如今用在大模型评测中,也被寄予发挥 “过滤器”和“强化器”的作用,很自然地成为了评估大模型高级推理能力的“试金石”和“标杆”。
张俊林透露,VibeThinker在AIME2024(即2024年度)、AIME2025(即2025年度)和HMMT2025在三个测试集中的得分,分别是80.4分,74.4分,50.5分。
图 | VibeThinker在测试集中的得分,源自张俊林微博
“这并不是说,VibeThinker的得分是行业中最高的,而应该相对来看。”他将通过这三项数学测试的各类大模型,从能力上分为三档。
以AIME2025为例,通过该数学测试集的大模型最高得分为95分。获得平均90分以上的玩家,仍是以参数量超过1000亿或接近1000亿的超大模型为主,比如智谱的GLM-4.6(3550亿参数)、Kimi-K2 thinking(10000亿参数)、GPT5、Gemini 3.0 Pro,是为第一档。
图 | AIME2025数学测试集
第二档平均为88分,获得这一分数的模型主要有Gemini2.5 Pro、Open AI的O4系列模型。
与之比起来,VibeThinker在AIME2025中评分为74.4分,与前两个档位的模型还是有显著差距,但它胜在模型参数只有15亿,基本上属于最小模型。
在这个所谓第三档的圈层里,年初发布的DeepSeek-R1得到70分,但R1参数高达6850亿,是VibeThinker参数量的数百倍。VibeThinker的评分也接近于参数为4560亿的MiniMax-M1所获评分,显示出微博凭借技术攻坚在数学领域方面,以小模型刷新了智能极限。
图 | HMMT2025数学测试集
“大模型一般分为文科智能和理科智能。文科智能就是看大模型写文章是否有文采。在数学测试中评分高,意味着理科智能高。但它不是意味着自己要成为一个垂类的数学大模型,而是类似于人们常说的‘学好数理化,走遍天下都不怕’,数学能力是大模型推理能力的重要基础。”张俊林说。
理科智能高,训练成本也创新低。据披露,VibeThinker的后训练成本(指大模型在预训练完成后,通过指令微调、对齐优化等过程中产生的成本)只有7800美元。张俊林有测算,大约比DeepSeek-R1的后训练成本降低了40倍,性价比突出。
至此,在中国已发布的1509个大模型中(新华社7月发布),VibeThinker至少在数学测试子集中,以自己“以小博大”的成绩和“较高的理科智能”占据了一席之地。
微博,这个被认为正在努力用AI改造平台基因的企业,也终于在继此前发布的知微大模型之后,有了第二张具备辨识度的大模型产品。
但张俊林也强调,“ViberThinker目前拥有的这份能力局限于数学和竞赛编程方面的推理,我们没有用聊天数据调整模型,暂时还不适合用于日常对话,还需要进一步训练。”
攻坚
VibeThinker在AIME2025的测评中,74.4分是如何达到的?
张俊林的答案是:从4分开始往上提的。
作为大模型行业中的“轻量级选手”,VibeThinker挑战高度智能,并不被祝福。因为行业普遍认为,要实现复杂的推理能力,需要1000亿以上的参数才能涌现(1000亿为大模型的入门门槛),而10亿左右及以下的小模型,通常因为无法处理高难度问题而被视为“天生不足”。
不过,这恰好是张俊林希望通过探索新知、来挑战行业传统观点的爽点所在,也是他愿意在微博待多年的原因之一。当初做自然语言处理和检索结合出身的他,认为微博有两个长处。一是社交数据丰厚且开放,这是重要的战略资源,二是微博愿意给出“新课题探索空间”。
数个月前,VibeThinker项目开始启动,整个研发难度呈现出“先易后难”的走向。
一开始,张俊林团队先是利用阿里千问大模型做了一个基础模型(Foundation Model)。相当于先拿到了一块原生矿石,接下来就是要对这块矿石进行雕琢、加工,进行所谓的“后训练”(模型微调、对齐),来生成属于自己的青铜器。
张俊林团队用这个基础模型,先在AIME2025的部分子集做了测试,得分只有四点几分。接下来要做的,就是对这块原生矿石进行训练,提高它的解题和推理能力。
从4分多提到50分是相对容易的,张俊林团队使用的训练方法是改进版本的GRPO 强化学习算法。
GRPO强化学习算法由Group(分组) + Relative(相对) + Policy Optimization(策略优化)这几个词组成,此前行业内更多用于模型训练的框架是RLHF,即人类反馈强化学习。
两个模型的训练机制有区别。AI研发工程师们为了训练一个好的模型,通常需要建立相关的奖惩机制。RLHF机制,是通过雇佣一个考官(即先训练一个奖励模型),根据标准答案,给被训练模型的每一个步骤打分,从而实现训练。但缺点是成本高,训练不太稳定。
而GRPO 训练法,则是建立了一套新的训练机制,让这个学生(即被训练模型)比昨天的自己考得更好,相当于内生驱动。这一框架优点是成本低、训练稳定,效果卓越。
借助GRPO强化学习算法,VibeThinker快速从4分攀上了50多分,但之后的路越来越难走。张俊林明显感受到,“每攀1分都变得困难,有时候就像卡在楼梯上,不知道如何才能突破。”
张俊林认为,“与做AI应用强调效果的确定性不同,做AI基础研究是不确定的,谁都不知道结果会怎样。”
这里所谓的“AI基础研究”,指的是行业内并不知道15亿参数的最小模型,它的智能上限在哪?
“是50分就已经是上限了,还是能更高。”每一分所代表的节骨眼,考验的是AI工程师们的决断——是继续往上攀,还是就停在楼梯的这一层。
像给一个孩子提高考数学分那样,张俊林每日提早1-2小时、约摸8点左右到办公室,通过阅读行业内每日发布的最新论文来获得“外部智援”。
据他的阅读观察,AI行业每日发布的论文以千篇计,其中有关深度推理的论文,从每日7、80篇到300多篇计。张俊林阅读的速度极快,会先看标题和摘要来做内容判断,但他发现,99%以上的论文并不具备解决一线开发者问题的落地能力。
他只好采用最朴素的方法——试错,张俊林把这叫做“自我改进”。通过在研发过程中,尝试多个训练方法,来一分一分地争取。有点像数学高考前的冲刺,50冲到100分或是难度可控的,但100冲到110分,方法将从普适经验转向个人方法创新。
在这个过程中,张俊林团队提出了一个名为“频谱到信号原理”(简称SSP)的方法来训练大模型。行业内有相关提法,但并未有专门论文论述。真正把原理付诸独家实操的,正是VibeThinker。
也正是借助这个训练方法,VibeThinker大模型的数学能力,最终战胜了超越其数百倍体量的“巨人”。
所谓“频谱到信号原理”方法,其核心要义是张俊林团队重新思考和确立了SFT和RL两步训练的关系。
SFT是“监督微调”(Supervised Fine-Tuning)英语的缩写,旨在让基础大模型这一原生矿石,进一步适应特定领域的训练,打好基础,比如让VibeThinker打好数学基础。
RL是“强化学习”英语(Reinforcement Learning)的缩写,其核心思想是通过奖励机制引导模型的行为,让大模型的答案生成更加符合人类的偏好,从而提升回答的质量、安全性等。
张俊林认为,行业内一般通行做法,是SFT训练在前、RL在后,两者目的殊途同归,都是为了提升模型生成内容的准确性。但他觉得SFT+RL的模式问题在于,两者优化目标都一样,没有体现出区别和配合,SFT和RL两个阶段都是在优化Pass@1(行话,即重视第一个回答的准确率),相比RL来说,SFT 本身就比较缺乏探索性,如果这么做,接在SFT后面的RL探索空间就很小,这会阻碍模型的效果。
他的做法是尝试将RL和SFT进行分工合作,SFT应该配合RL,优先优化Pass@K(行话,即重视模型的一题多解能力),先把解决问题的多样性做好,这样才能为后续RL打开探索空间。
“这个做法就有点像推荐系统里的‘召回+排序’两阶段流程,召回负责多样性,排序负责精准性,是一种频谱到信号原理的呈现。”张俊林表示。
类似于训练一个学生的解题能力,先注重提升他的解题思维和方法,再来实现解题正确性的提高——即先锻炼思维、再实现结果。
张俊林团队经过实操发现,“这样能提高小模型的训练效果”,也正是经过这一操作,张俊林团队成功将VibeThinker在AIME2025的得分,从50多分一点一点提升至74.4分。
其实,通过类似这种模型训练方法的创新来实现降本增效,已成为行业共识。如“知识蒸馏”就被认为是模型训练的一种战术级创新。
而微博张俊林团队的“频谱到信号原理”创新,无疑给行业内又贡献了一套新的选择方案,属于一种大模型建造流程的重新思考,进一步改变了传统模型训练单纯靠堆算力、堆参数、烧钱来实现胜出的惯性依赖。
VibeThinker将科研成果以合适方式对海内外业界进行了详细说明,尤其在海外产生了广泛影响,吸引诸多权威科技媒体前来报道。张俊林远在美国Meta的朋友来电,希望用频谱到信号原理的方法,来复刻相关模型。
图 | VibeThinker大模型的推出,在海外也引发广泛关注
应用
VibeThinker的实践,推翻了行业内的固有结论——小模型难以具备高度的推理能力。
张俊林表示,“VibeThinker是开源十分彻底的模型,将有助于微博平台继续生成各类AI应用,也能将技术红利外溢给其他主体,尤其是中小企业,完全可以在VibeThinker基础上进行再开发,服务于自己的业务。”
实际上,微博做VibeThinker并非来自于天马行空的“前沿未知探索”,它的出发点,主要来自于要服务微博平台内一项很实际的应用需求——即评论罗伯特。
评论罗伯特,是微博在2023年7月上线的一款AI机器人。人如其名,它的活跃区域是评论区,其具体运作机制,最先是基于微博自研的闭源大模型——知微大模型,来深度学习微博用户发布的各类帖子,从而生成评论贴,与用户形成互动。
诞生之初,评论罗伯特以横冲直撞的魔童风格,生成各类评论,一度成为社交话题。
图 | 评论罗比特,微博用户大多遇到过
评论罗伯特,并非微博自上而下策划的公司S级项目,而只是来自微博公司内周期性举办的“AI创新大赛”。在ChatGPT诞生以后,微博鼓励员工以2-3人为单位,为平台内可能的AI应用提出创意。
评论罗伯特,就是诸多方案之一。它并未在员工创意方案评选中获得大奖,但反而微博以“试一试”的心态,意外将它从创意落实成了具体产品。
支持评论罗伯特运行的大模型,于今年6月,融合了类似DeepSeek-R1模型的深度思考能力,目的是借用其深度学习与思考能力,提升回复的逻辑深度和个性化水平,让用户的体验更好。
但这也带来相应的问题。因为模型规模比较大,每进行一次深度思考与回复,耗时长,使用成本也偏贵。有公开报道称,DeepSeek-R1每次推理时激活的参数量为370亿,占总参数量5.5%,虽然在“干活”时已经实现了降本增效,但仍然成本不算便宜。
微博方面透露,评论罗伯特每天大约要生成百万条AI评论,且专挑粉丝数只有几百人的微博普通用户,追求给很多情绪低沉的用户以心理抚慰。
看似只有“一位罗伯特”在干活,实际上这一应用背后有6、7位Agent来负责操作。有的Agent专职遴选粉丝数只有数百人的微博用户,有的Agent负责学习用户帖子乃至发的图片内容,有的Agent负责生成评论。甚至连评论风格又被细分为数个Agent负责,有的负责娱乐线、有的负责科技线,有的负责犀利派评论,有的负责温情派留言。
张俊林恰好也是评论罗伯特项目的负责人。因应项目需求,开发一款参数更小、使用成本便宜、但智能还能保持较高水平的大模型,成了最直接的需求。这才有了VibeThinker模型的诞生,也才有了张俊林团队为期3个月的“数学能力攻坚战”。
回想起这三个月,张俊林坦言,“脑袋转不动、情绪低沉”的时刻常有,但作为一名AI研发者,面对万般困难,核心开发者的解题思路,朴素得出奇。
“遇到问题、头脑风暴、思考解决方案、然后进行试错,此路不通,换一条试试,大家彼此用理性说服”,几乎就是这样一条平平无奇的路径。这本质上也是AI研发工程师们一种被数学牵引的思维之光。
目前,微博平台内已实现开源模型与知微大模型的“双模型引擎”。前者还在负责微博平台内另一款广受欢迎的AI应用——微博智搜,它与评论罗伯特,成为微博AI应用的两块看板,进一步激活了微博已有生态。
据微博发布的2025年Q3财报,微博智搜MAU突破7000万,DAU和检索量环比提升超过50%。至于评论罗伯特,虽然有的用户对与评论罗伯特的互动并不感冒,但张俊林曾在内部做过A/B测试。在导入评论罗伯特之后,微博的用户活跃有了提高,平台内的社交氛围得到了改善。而普通人社交,恰好是微博平台需要补强的地方。
张俊林表示,接下来会基于VibeThinker探索出的技术,一方面融入微博领域数据提升现有AI应用的效果,一方面减少模型参数大幅节省应用成本。同时VibeThinker也将进一步训练,摸索在其它方面提升智能的方法。他也欢迎平台外主体能活用其相关成果,进一步对自身业务主体进行降本增效与应用赋能。
最后,他也总结了小模型的未来:“从罗伯特中来,到罗伯特们中去。”类似于大家耳熟能详中的那句话,从群众中来,到群众中去,AI用起来方便、便宜、能成事才是最关键的。
本文来自微信公众号 “真故研究室”(ID:zhengulab),作者:龚正,36氪经授权发布。















