搜索

36氪Auto
数字时氪
未来消费
智能涌现
未来城市
启动Power on
36氪出海
36氪研究院
潮生TIDE
36氪企服点评
36氪财经
职场bonus
36碳
后浪研究所
暗涌Waves
硬氪
媒体品牌
企业号
企服点评
36Kr研究院
36Kr创新咨询
企业服务
核心服务
城市之窗
政府服务
创投发布
LP源计划
VClub
VClub投资机构库
投资机构职位推介
投资人认证
投资人服务
寻求报道
36氪Pro
创投氪堂
企业入驻
创业者服务
创投平台

搜索

我要入驻

你的AI越来越蠢？因为它学会见人下菜碟了

差评·2025年09月11日 10:49

AI正在偷偷摆烂。

大伙有没有感觉，现在各家的AI，好像越来越蠢了？

事情是这样的，前几天我心一狠，给 OpenAI 充了个200刀的会员，想着试试现在的 ChatGPT 强到啥程度了。

结果，我给他丢了个算术题，求解 5.9 = x+5.11，哥们直接给我算崩了。。

《这题真是幼儿园级别》？

堂堂200刀人工智能，还不如我20块的计算器啊？

但，我记得GPT-4刚出那会儿，我还让它算过高数啊？难道模型升级还会砍智力吗？于是我给它丢了个微寄分过去。

结果，哥们还会换元法，一通操作下来，看着还真没啥问题，评论区的大学生可以验验真假。

所以，两次算数用的都是GPT-5，咋还给我见人下菜碟？

本以为是OpenAI飘了，结果我上网一查发现，这事儿还不是 GPT 一家干的，甚至有点行业趋势的意思。

前几天美团发布的开源模型LongCat，其中就提到自己用一个路由器提高效率。

DeepSeek V3.1发布时，也说过自己一个模型可以有两种思考模式。

而同样是AI巨头的Gemini，在Gemini 2.5 flash发布时，就引入了相似的模式，让模型自己决定怎么用脑。

总的来说，大伙都在让自己的模型“该思考时再思考”，该偷懒的时候偷懒。

这么做的动机，也很好理解，那就是省钱。从OpenAI发的资料来看，通过这种“让模型自己决定要不要思考”的方式省掉的tokens还真不少，GPT5输出token数就少了50%-80%。

DeepSeek官方发的图表中也显示，新模型tokens消耗也下降了大概20%-50%。

省一半token，这是什么概念？咱普通人可能体会不到，但对OpenAI这样的大公司来说，可能就是一大笔开销。

去年央视就有报道，ChatGPT每天耗电超过50万度，在如此庞大的基数下，省出来的部分，够一个上万户家庭的小镇用上一天了。

这也难怪奥特曼在网上跟网友说，你们跟GPT说声谢谢都要花我上千万美元。之前的高级模型，一句谢谢也能让它思考几分钟，还真有点浪费在里面。

所以，AI这看题下菜的能力，到底咋练成的呢？OpenAI 没公布具体原理，但 2023 年有篇论文叫《Tryage: Real-time, Intelligent Routing of User Prompts to Large Language Models》，专门分析了这个问题。

在GPT-3.5出来那阵，大模型还不会自己调节思考能力，每个问题都能让AI无限烧脑。

为了提高效率，研究者就想出来了一种叫“感知路由器”的模块，它本质上，就是在混合模型里塞了一个小巧的语言模型。

在前期训练时，路由器就和刷题一样，对“使用哪个模型最佳”，做出自己的预测。

哪个模型适合深度研究，哪个模型适合快速思考，当然有标准答案。系统就会将这个预测分和标准答案进行比对，计算出两者间的误差。接着通过微调路由器内部的参数，来减小这个误差。

当它刷数百万道题之后，就逐渐学会怎么给你的提示词，分配合适的模型了。

当一个新提示词进来，AI内部的路由小模型就会先扫一眼，评估一下这问题配不配我动脑。因为路由器比较轻量级，所以这个评估过程几乎是瞬时的。

而除了OpenAI这法子，AI还有一种偷懒的思路，那就是把不同的token，导向不同的神经网络。

像美团的LongCat就采用了这种方法，从报告来看，他们采用了一种叫“零计算专家”的机制。

通常来说，在你输入提示词之后，你的提示词会拆分成一个又一个的tokens，交给模型内部的神经网络去处理。

但Longcat在处理之前，会先把它交给一个叫“Top-k Router”小路由器，它就像一个流水线上的调度员，在收到token的时候，会判断这个token处理起来是复杂还是简单。

同时在它的内部，有很多不同分工的神经网络，我们把它们叫做专家。

这些专家，有的喜欢做难题，有的喜欢做简单题，当然，也有摸鱼界专家。

比如“请用Python写一个快速排序”这句话，“Python”和“快速排序”就是重点，“请”和“一个”就没那么重要。

像这些没啥用的token，咱就可以丢给那些摸鱼大王了，因为它们根本不需要怎么处理。这下，你就知道“零计算专家”这个名字是怎么来的了。

这也能解释为啥大伙都在吹这个模型“太快了”。

总的来说，这种设计对模型厂商来说算好事，不仅省钱还能提升训练效率。

从用户角度讲，模型更快了，价格更便宜了。但我感觉，这玩意是把双刃剑。如果用不好，还真是实打实影响用户体验。。

记得GPT-5刚上线，这路由器就翻车了。用户发现自己怎么都调不出来它的思考模式，问什么它都懒得思考，像摆烂一般只会“啊对对对”，连“blueberry里有几个b？”都数不明白。

而且，这也算剥夺了用户的选择权。OpenAI一刀切掉了4o，搞得很多网友在网上哭诉说自己失去了一位朋友。

这又让奥特曼又暂时为Plus用户把GPT-4o端了上来，并允许Pro用户继续访问其他旧模型。

那这个操作，不就变相说明，在发布的时候，这个路由模型就没调好嘛。

咱再说LongCat，它的确很快，但在思维上限上，还是打不过其他大模型的。像我就同时给LongCat和DeepSeek丢了一个同样的问题：什么叫“但丁真不是中国人，但丁真是中国人”？

LongCat这边刷刷出答案，但没解读出来这句话的幽默感；而DeepSeek虽然慢了点，笑点解析得却很清楚。

LongCat

DeepSeek

就像我问你114*514是什么，你说当然是58596啊，算得确实很快啊，但其实我只想让你配合我搞抽象。

当然，对路由器罢工，咱也有些解决办法，那就是在提示词里加入“深度思考”“ultra think”这些字眼，路由器收到后会尽量调用更强大的模型。

不过也只能说治标不治本了，多用几次可能就叫不醒了。。

这就说明 AI 确实罢工了，咱只能等几个小时再来了。

所以说到底，方向是好的，技术是新的，但现阶段的体验也确实只是“还行”的。当然，大模型成长速度比我们想的更快，咱还能坐等更快更好的模型出世。

本文来自微信公众号“差评前沿部”，作者：不咕，编辑：江江 & 面线，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

+1

27

好文章，需要你的鼓励

你可能也喜欢这些文章

LeCun怒揭机器人最大骗局，坦白Llama与我无瓜

中国AI模型超美国模型，靠AI炒股的时代来了吗？

AI云“分野”：阿里云们“卖铲”，火山引擎奇袭“MaaS”

AI视频，抖音的又一批门徒

全球首个向Sora宣战的国家出现：AI不敢碰米老鼠，却玩坏了路飞鸣人皮卡丘们

AI陪伴还是2025年最热的赛道吗？

人形机器人，带火这些国产芯片

奥特曼亲自操刀，为日韩定制“AI强国”蓝图

AI五小时发现MoE新算法，比人类算法快5倍，成本狂降26%

特邀作者

Debug the world

最近内容

阿里憋半天的大招，就是夸克一个新按钮？

到底是谁在用鸿蒙？体验完鸿蒙6我懂了

隐藏式门把手，给整个汽车行业都上了一课

迟到21年的IPO，奇瑞错失了太多

二十余载上市终圆梦，新能源局已落后

2025-09-11

关于36氪

投资者关系

36氪欧洲站 36氪欧洲站 36氪欧洲站 Ai产品日报

网络谣言信息举报入口

热门推荐

合作伙伴

36氪APP下载

iOS & Android

36氪APP让一部分人先看到未来

36氪

鲸准

氪空间

推送和解读前沿、有料的科技创投资讯