DeepSeek流量暴跌,要凉了?是它幻觉太严重还是它在闷声发大财?
DeepSeek曾在半年前,引发全球轰动,无数人撑其为“国运级”的项目。不过,仅半年后,它仿佛“落下神坛”了。试试真的如此吗?我们查看了QuestMobile发布的《2025年二季度AI应用价值榜》,DeepSeek月均下载量从第一季度的8111.3万降至如今2258.9万,降幅高达72.2%。有人说:这是DeepSeek爱生成“幻觉”内容导致的,如今,社交媒体上“如何去除DeepSeek的AI味”已成热门话题。当用户反复修改提示词试图消灭文本中的机械感时,一个残酷问题浮出水面:这位“AI天才少年”,是否正重蹈方仲永的平庸之路?今天,我们将深度探讨这一问题。
去AI味儿运动:当完美文字沦为“机械积木”
在小红书上,搜索“DeepSeek”+“AI味儿”会看到大量的用户在吐槽DeepSeek胡编乱造的内容:
用户@光年之外XXX只是想向AI咨询如何挽回前男友,但DeepSeek给她的措施包括了“向公安备案情感骚扰记录”、“报名南极科考志愿者”以及“攻读清华大学脑机接口与情感神经学硕士”三种,这让她哭笑不得只能吐槽大模型「完全是在胡说八道」。
用户@螺蛳粉大王XX希望DeepSeek能帮他找到旅游目的地附近最好吃的十家外卖店,结果当他按照给出的答案进行搜索,才发现十家“口碑好店”竟然全部不存在,都是大模型伪造出来的结果。
用户@半夏_XXX引用了DeepSeek提供给他的引用文献,但他检索发现有关“国家发改委产业经济研究所2023年的报告”根本不存在,当他向DeepSeek质疑时,他发现DeepSeek在思考过程中甚至直接写明“现在用户需要具体的链接,而实际这些数据是模拟的,我并没有真实来源”。
同样编造信息的问题还发生在用户@娜娜真爱X身上,当她询问DeepSeek一家叫做“ComcSoft Corporation”公司的具体信息时,她发现DeepSeek的回答有模有样。而当她继续询问公司所在地理位置时发现,DeepSeek明确在思考过程中写明“由于这是一个假设的公司,实际中可能不存在,我需要根据之前的虚构内容继续构建合理的回答……我需要假设一个合理的总部位置。”
太多用户对大模型编造答案的表现“积怨已久”,而这只是大模型表现糟糕的一部分。
用户@学术兔的吐槽也引发了众多网友的共鸣,她提到“DeepSeek写的论文引言满是‘然而’、‘此外’,她的导师批注说论文的行文风格‘像机器人拼好的积木’”——这种被称为AI腔的症状,正是越来越被许多用户感知到并吐槽的“AI味儿”。
DeepSeek为何“变笨”?
大模型冷冰冰的AI味儿,其原因在于回答内容背后隐含的逻辑暴力:
正如以上所提到的,大模型对连接词的过度依赖已经渐成病症。许多逻辑上关联不强的内容都被过渡生硬的套上了“首先/其次/综上所述”,从而迫使研究者用提示词禁用特定词汇。与连接词类似,大模型似乎也钟情于“短句”:“近年来”、“尽管如此”、“请注意”、“关键步骤包括”等等程式化短语,这些短语的高频出现,某种程度上也割裂了叙事的节奏。
另外,大模型的回答似乎也格外热衷于数据本身:例如描述实验结果为“根据表3数据可知,实验组有效率87.3%”,却忽略了科研现场的细节推导与求证——冷冰冰的数字表现出了大模型逻辑对数据的极尽追求——即使编造也在所不惜。
而除了底层的逻辑暴力外,一个更令人担忧的现象,或者说造成大模型回答胡编乱造的更深层次病源,其实在于互联网本身的“数据代谢病”。当DeepSeek等大模型吞噬网络语料时,它们也正吞下自己制造的“语言毒素”:
第一,AI生成内容污染训练池:据斯坦福大学《2025年人工智能指数报告》研究显示,中国生成式AI用户达2.3亿,其中30%用于内容创作。而这些AI创作出的带有机械基因的内容再次作为训练养料被重新投入训练,形成数据的近亲繁殖,使得“不尽完美”的真实人类文本进一步被边缘化。当沙漠中的雪人成为常态,绿洲反被指为异端——“AI味儿”的本质就是语言多样性的荒漠化。
第二,人类语言习惯被反向驯化:有报道称,欧洲许多Open AI的用户发现大模型给出的答复中“delve”一词出现的频率极高,但在欧美社会,很少有人会在日常中用到这一词。那么,为什么ChatGPT热衷于使用这个词?卫报经过调查发现,ChatGPT的这一“习惯”或许可以追溯到非洲大陆——当地大量廉价的劳动力使大模型公司能以相当低的成本找到大量的人工标注员——他们的作用是评估语言模型的输出结果,并额外监督大模型学习步骤,对输出结果进行微调。而在他们的商务英语中,Delve这个词使用地相当频繁。也就是说,ChatGPT对Delve这一词的偏爱,其实是非洲人工标注员无意识打上的烙印。
但这一结果却让“delve”一词在欧洲的使用量暴增2700%——用户开始模仿AI的“高效表达”,进一步稀释了语言的多样性。这一结果,又进一步加剧了大模型的“数据代谢病”。
而在更深层次,大模型本身就带有着胡编乱造的“娘胎病”,这一症结即是「大模型致幻」。
马里兰大学的科研团队在今年通过引入AutoHallusion 框架,系统测试了 GPT-4V 等模型在违和场景图像(如“沙漠中的雪人”、“雪地里的棕榈树”)中的表现。结果显示:
GPT-4V准确率骤降至66%,远低于常规场景的80%准确率。他们引入的违和场景模型使得大模型“认知失调”,陷入一种语言幻觉,并激发它们强行用参数化的知识解释异常(如坚称“沙漠有雪正常”),而非依据视觉输入。
通过一系列的测试,他们认为:大模型认知幻觉的漏洞根源,在于视觉-语言模块的割裂——语言模块过度依赖先验知识,从而压制了视觉信号的修正作用。
大模型致幻的例子,在DeepSeek身上也不乏稀缺:
几乎所有希望借助DeepSeek完成专业论文写作的用户,都曾体会过它存在一定程度的学术权威虚构,即自动生成不存在的文献作者与理论,并为了迎合“理想结果”编造统计学数据,使结果看起来更加完美。
这种认知失调源于模型对语言先验的过度依赖——当视觉信息与常识冲突时,大脑选择相信经验而非现实,AI亦然。
再者,DeepSeek模型本身在训练语料上也有致命伤。
据今年一月份发布的赛迪智库报告显示,全球主流AI大模型的训练语料库中英文语料占比超过90%,中文语料占比不超过5%。而以CSSCI核心期刊为代表的优质中文语料库,其数字化率也勉强只达到三成,超过70%的期刊受制于成本、版权及技术原因,无法成为可训练语料。
所以说,日益变得平庸的DeepSeek,本身就有着相当贫血的根基。再叠加上AI语料本身的迭代反噬,DeepSeek新模型的训练效果就如同用蒸馏水酿酒——信息熵持续衰减已是必然。
还有一点也值得一提,即是内容审查。大模型生成内容天马行空,有一些生成限制与内容规避也不难理解,但内容审查机制虽然保障了安全性,却也剪除了语言的荆棘与花朵。当“敏感词库”持续扩容,模型输出自然就会更倾向于安全但平庸的表达。
对抗平庸化:重掌思维主控权的突围指南
那么,在大模型这场无法避免的“技术退化运动”中,我们又该如何对抗平庸?我有三点建议:
第一点,是掌握识破大模型幻觉的能力。对于AI给出的完美回答,我们要习惯性地对其中的关键数据进行交叉检索,也要善于在权威数据库(如CNKI)中检索确认,避免对大模型输出结果的过度依赖。
第二点,是要掌握对大模型逻辑的压力测试能力。对于大模型给出的结果,我们可以要求其用反例辩驳自身的观点,并在这一过程中观察其是否陷入自相矛盾的境地。从而打破逻辑暴力的限制,获得真正经得起推敲的内容。
第三点,是掌握对大模型输出内容的感知能力。要对内容敏感,要习惯把AI给出的内容当作“初稿”,要能够识别出AI的黑话,要警惕“连接词”密集区。这些都要求我们在任何看似正常的节点都习惯性地对AI进行问询,例如面对一条理论,可以提问“该理论首见于哪年期刊?”从而精准核查事件时间线,通过锚定时空法定位准确的内容。
掌握这三点能力,对于真正用好AI会有很大的帮助。
最后,AI的强大我们当然也不能否认,海量信息整理、复杂概念解释、创新实验思路等等很多方面AI仍然具备“不可替代性”,在适当的领域发挥出最大的价值仍旧是最优的AI应用方案。所以,在生成式AI已经势不可挡地融入人类社会方方面面的今天,人类本身也要随之有所进步,这种批判性的思维,正是AI时代亟需锻造的核心竞争力。
结语:在工具理性中保存思想的野性
DeepSeek的“方仲永困境”,折射的是人类对技术寄予的“僭越”期待。但真正的智慧从不在芯片中诞生,而在我们与AI的创造性摩擦中迸发。当吉利汽车用DeepSeek重构车载语音系统时,工程师刻意保留5%的“非优化回答”——那些稍显笨拙却充满人性试探的表达,成为人机交互中最动人的部分。
或许,平庸的从来不是工具,而是使用工具的我们。只有让AI成为思想的磨刀石而非替代品,方能在算法洪流中保留人类思维的灯塔。
本文来自微信公众号“混沌大学”(ID:hundun-university),作者:混沌学园,36氪经授权发布。