不是所有token都平等,谷歌提出真·深度思考:思维链长≠深度推理
原来AI也在水字数。
大模型的思维链越长,推理能力就越强?谷歌Say No——
token数量和推理质量,真没啥正相关,因为token和token还不一样,有些纯凑数,深度思考token才真有用。
新研究抛弃字数论,甩出衡量模型推理质量的全新标准DTR,专门揪模型是在真思考还是水字数。
基于DTR,还提出了Think@n策略,让GPT-OSS、DeepSeek-R1等推理模型实现准确率不降、算力成本直接砍半的效果。
长逻辑不等于好推理
长期以来,一个比较常见的观点是思维链越长越牛。
这种思路的逻辑也比较直接,推理步骤多=思考更充分=答案更准。
于是不少研发者也为了追求长推理轨迹开始堆算力。
谷歌的研究团队在AIME2024/2025、HMMT 2025、GPQA-Diamond四个数据集上,测了GPT-OSS、DeepSeek-R1、Qwen3等8个模型变体;
结果发现,token长度和准确率的平均相关系数是-0.54……负相关。
也就是说,在某些情况下,思维链越长,推理越容易跑偏,甚至还会陷入逻辑死循环或者过度推理。
那么问题来了:如果长度靠不住,那该怎么判断模型是不是在真思考?
谷歌这次的视角比较有意思,不看表面输出,直接监听模型每一层的内心戏。
研究发现,模型生成的token其实可以分成两类:
- 功能性词汇,比如“和”“是”“的”这类,模型在浅层网路就快速确定了,是不需要深度思考的敷衍词;
- 深度思考词,比如“运算结果是10”“选项为A”,这类词在深层网络中还会被反复修正,预测分布持续变化,体现模型是真在琢磨问题。
团队用JSD衡量各层预测分布的差异,如果一个token的预测直到深层网络才稳定下来,那就被判定为深度思考词。
在这个基础上,他们提出了Deep Thinking Ratio,即深度思考词在完整生成序列中的占比。
这个比例越高,说明模型越聚焦核心推理,没有在无意义内容上消耗算力。
真·深度思考降本增效
在四个推理测试集上,DTR与推理准确率的相关系数达到0.82。
相比于token长度的-0.54,DTR更能反映推理质量。
谷歌还基于DTR顺势推出了Think@n策略,能在推理初期就识别低质量废话,将计算资源集中在真正有深度的样本上。
具体为为每个问题采样多个推理样本,仅通过50个token的短前缀快读估算DTR值,筛选出前50%的高质量样本,再进行多数投票得出答案;
这样,低DTR的低质量样本在推理初期就被终止生成,直接砍掉无意义的token消耗。
在多款主流模型的测试中,Think@n推理准确率与传统策略持平甚至略高。
比如GPT-OSS-120B-medium在AIME 2025数据集上准确率达94.7%,高于传统策略的92.7%;
还将算力成本直接削减近一半,推理token消耗从355.6k降至181.9k,做到了性能不降、成本减半。
这项研究的第一作者Wei-Lin Chen是弗吉尼亚大学计算机博士,专注于LLM推理衡量及评估者有效性等研究方向,曾在谷歌担任学生研究员。
共同一作Liqian Peng为中科大校友,现在谷歌担任研究工程师。
指导作者孟瑜是弗吉尼亚大学计算机助理教授,研究方向包括训练范式、数据与推理效率及表征基础等方面,此前还和NLP领域的顶尖学者陈丹琦有过合作。
看来大模型推理也不兴水字数了,真·深度思考才能降本增效。
本文来自微信公众号“量子位”,作者:关注前沿科技,36氪经授权发布。















