AI 新悖论:模型越智能,数据越糟糕

神译局·2026年01月08日 07:06
喂模型垃圾数据,它就会自信满满地给出错误结论。

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:人工智能模型的可靠性取决于其底层数据的质量。然而,目前有一个新的悖论,模型越智能,数据可能变得越糟糕。本文来自编译,希望对您有所启发。

[图片来源:Eugene Mymrin/Getty Images]

人工智能承诺带来更智能、更快速、更高效的未来,但乐观表象之下潜藏着日益恶化的隐忧:数据本身的问题。我们常讨论算法,却鲜少关注支撑算法的基础设施。事实上,创新速度永远无法超越其输入数据的质量,而当前这些输入数据正显露疲态。当根基开始动摇,即便是最先进的系统也会失灵。

十年前,规模与精度尚能并行不悖。但如今,这两个目标往往背道而驰。隐私法规、设备授权限制及平台新规,使得获取高质量的第一方数据比以往任何时候都更困难。为填补缺口,市场充斥着看似合法实则虚假的循环利用、伪造或推断信号。

由此催生出诡异的新常态:两年前已关闭的商场仍显示“客流量”,汽车经销店在午夜时分呈现繁忙景象。这些异常看似是无害的故障,实则是数据生态系统重数量轻可信度的产物。

1. 当数据量沦为噪音

多年来,行业普遍认为数据越多洞察越精深。数据量象征着实力,输入越多意味着智能越强。但如今数据过剩已沦为干扰噪音。为维持规模,部分供应商采用了填充数据或虚假信号,使系统看似健康,实则侵蚀了数据的可靠性与真实性。

一旦劣质数据进入系统,便几乎无法分离。这如同在新鲜的麦片盒里混入几粒过期麦片,你无法辨别哪粒变质,但能尝出差异。而当数据规模扩大时,这种差异将呈指数级放大。

2. 人工智能悖论

讽刺的是,人工智能既是问题根源,也是解决方案。所有模型都依赖训练数据,若基础数据存在缺陷,其产出的洞见必然失真。喂它垃圾数据,它就会自信满满地给出错误结论。

任何使用过ChatGPT的人都曾亲身体验过这种挫败感。尽管它是极具价值的工具,但仍会出现提供错误答案或产生幻觉的情况。你提出问题,它立刻满怀自信地给出详尽解答……可惜全是错的。有那么一刻,这听起来令人信服,但一旦发现谬误,怀疑的种子便会悄然萌芽。再试几次,怀疑便占据上风。这就是数据质量崩坏时的景象:故事看似完整,却无法分辨何为真实。

与此同时,人工智能为我们提供了新的工具,通过标记不一致来清理它继承的混乱。某餐厅在周日显示有访客却实际歇业?某家闭店商场突然“人潮涌动”?只要训练得当,人工智能就能捕捉到这类异常模式。

然而,单凭一家公司无法解决所有问题。数据完整性依赖于整个链条的每个环节——从采集者、聚合者到分析师和终端用户,都需对自身贡献的数据负责。进步的源泉不在于更多数据,而在于提升现有数据的透明度。

3. 质量重于数量

我们不能再认为数据量大就意味着质量高。

重点需从全面收集转向精选关键数据,构建可验证的高可信度数据流。基于可靠信号构建的精简数据集,其产出的洞察往往比海量可疑信息更清晰、更具说服力。

许多组织仍将规模等同于可信度。但真正的问题不在于数据量多大,而在于数据是否真实。

4. 人性因素

改变人们对数据的认知比改变技术本身更难。团队抵制新工作流程,合作伙伴担忧“精简”意味着失去可见性或控制权。但更小巧、更智能的数据集往往能揭示比海量数据更深刻的真相,因为其中蕴含的信号真实可靠。

然而一旦信任崩塌,洞察力便会失去价值。通过透明化、验证机制和协作重建信任,如今已与算法本身同等重要。

人工智能不会消除数据问题,反而会放大它。我们需要足够严谨地分离信号与噪音,也需要足够自信地承认:更多数据并非总是更好。

真正的优势不在于拥有无穷无尽的数据,而在于懂得舍弃什么。

译者:Teresa

+1
29

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

巴菲特90%财富50岁后才来?财富奇迹,藏在 “理性的懒惰” 里

昨天

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业