你以为在做AI,其实只是在堆垃圾

王建峰·2026年07月02日 11:39
AI转向以数据为中心,数据治理产出高质量数据集。

AI 从来不是遥不可及的玄学,也不是只有技术人才能玩转的工具。用 AI 解决文案、数据整理等高频痛点,就能轻松解锁生产力提升。

某制药公司花了一年时间、投入数千万,想用AI来辅助识别皮肤恶性肿瘤。

模型训练好了,准确率看起来也不错。但一到临床场景,问题就来了——医生发现,这个模型喜欢把带有"测量尺"的照片标记为恶性。没有尺子的照片,即使肿瘤特征更明显,模型反而不那么警觉。

排查之后才发现:训练数据里,需要精确测量的恶性肿瘤图片,医生习惯放一把尺子做参考;良性的普通照片通常不带尺子。模型忠实地学到了这个规律。它学会的不是"如何识别肿瘤",而是"如何识别尺子的存在"。

这就是著名的"尺子问题"。

根据MIT的统计,企业中95%的AI项目以失败告终。失败的原因,大多数不是算法不够好,不是算力不够强,而是一句老话:垃圾进,垃圾出。

你以为在做AI,其实只是在把更多垃圾用更快的速度跑了一遍。

这件事,在2026年越来越成为一个绕不开的共识。国家数据局在今年6月正式发布了《关于推进行业高质量数据集建设行动的实施方案》——这是中国第一个系统部署行业高质量数据集建设的顶层行动纲领。发布的时间节点,本身就说明了问题:我们正在从"以模型为中心"转向"以数据为中心"。

模型的时代远没有结束,但数据治理的时代刚刚开始。

一、高质量数据集,到底"高"在哪里

很多人第一次听到"高质量数据集",会以为就是"数据量多一点、准确度高一点"。

这个理解,差得很远。

以最近很热的大模型预训练为例。训练一个通用大语言模型,你可以从互联网上抓几千亿个token的文本丢进去跑。数量是够的,但里面有多少重复内容?有多少过时信息?有多少充斥着偏见的低质量论坛帖子?有多少机器翻译出来的语法扭曲文字?这些东西全学了进去。

为什么有些模型会"一本正经地胡说八道"?就是因为训练数据里有太多"一本正经的胡说八道"。

国家数据局的文件里,给高质量数据集下了一个明确定义:经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能的行业数据集合。文件还专门提出了"AI-Ready"的概念——高质量数据集必须满足结构完整性、内容多样性、标注准确性、模型适配性四个维度的要求。

翻译成大白话:不是你有多少数据,而是这些数据是否真的能用、能用好、能用对。

这里有一个很多企业容易忽视的细节:高质量数据集的"高质量",不是数据本身天生就有的属性,而是经过一整套治理流程加工出来的结果。

原材料进了工厂,经过清洗、加工、质检、分类,才能变成合格产品。数据也一样——原始数据只是"矿石",高质量数据集才是"精炼金属"。而把矿石变成金属的那个工厂,就是数据治理。

二、数据治理是"高质量"的生产车间

来做一个简单的类比:

你去一家工厂,原材料采购进来之后直接丢到生产线上,没有质检、没有规格标准、没有分拣。最后出来的产品合格率是多少?

这就是大多数企业今天对待数据的方式。

企业里典型的数据现状:订单数据在CRM,客户数据在ERP,日志数据在服务器,分析数据在Excel。每个系统对"客户ID"的定义不一样,对"成交时间"的口径不一样,对"退货"的分类标准不一样。你把这些数据收进来跑一个AI模型,模型学到的是什么?是业务规律,还是各个部门互相打架的口径分歧?

数据治理解决的就是这件事。

具体体现在四个层面:

数据标准化,让同一个概念在不同系统里说的是同一件事。"销售额"的定义,是含税还是不含税?是下单时间还是付款时间?这些不统一,任何分析结果都是混的。

数据质量管控,让缺失值、异常值、重复记录在进入分析之前就被处理掉。一个空值率超过30%的字段,放进模型只会增加噪音,不会增加信号。

数据血缘追踪,让你知道某个数据从哪里来、经过了哪些变换、被哪些下游系统在用。上游一个字段改了口径,下游受影响的分析全部要重跑——如果没有血缘,你甚至不知道哪些东西需要重跑。

元数据管理,让数据有"说明书"。这个字段叫什么名字、什么含义、谁在维护、上次更新是什么时候——没有这些信息,下游用数的人永远在猜。猜出来的结论,可信度可想而知。

这四件事加在一起,才是高质量数据集的生产基础。少了哪一件,最终出来的数据集都不可能真正"高质量"。

亿信华辰在2025年的项目实践中发现,在引入大模型辅助数据治理之后,一个大型金融机构在同等条件下,整体成本降低了25%,实施周期缩短了30%。但这组数字背后更重要的是:当数据治理的效率提上来了,企业才有能力持续、系统地生产高质量数据集,而不是靠几次"运动式整治"堆出来一批数据,然后扔着不管。

高质量数据集不是一次性工程,是持续运营的结果。数据治理,是让这个持续运营成为可能的底层基础设施。

三、"数据飞轮":治理与质量的螺旋上升

今年的数据圈里,有一个词出现的频率极高:数据飞轮。

国家数据局的文件把它描述为"场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值"的良性循环。安徽省数据局把"打造安徽特色数据飞轮"列为下一步的核心目标。这个概念听起来宏观,背后的逻辑其实很具体。

用智能客服举个例子:

第一步,你有一个智能客服场景。把真实客服对话数据收集起来,做清洗、标注、质检——这是数据治理的工作——得到一批高质量的对话训练数据。

第二步,用这批数据训练专属模型,模型的回答质量明显比通用模型好。

第三步,模型部署之后,产生更多真实对话数据,再次进入治理流程,反哺回数据集,让下一版模型更好。

第四步,更好的模型带来更好的体验,用户愿意用、多用,产生更多高质量数据。

这个飞轮,每转一圈,数据质量更高,模型能力更强,业务价值更大。

但这里有一个关键前提,很多企业做飞轮的时候直接跳过了:飞轮能不能转起来,取决于第一步的数据治理做得好不好。

如果你收进来的对话数据,30%是重复的、20%是机器人自问自答的测试数据、另有10%是员工手误打错的乱码——这个飞轮不是转起来,是带着一堆垃圾原地打转。

飞轮的动力来源是高质量数据。高质量数据的来源是扎实的数据治理。没有后者,前者就是空话。

四、行业的真实差距:谁在认真做治理,谁就赢在起跑线

国家数据局《实施方案》里有一句话,值得单独拿出来看:

当前,全球人工智能发展正从"以模型为中心"加速转向"以数据为中心",高质量数据集已成为决定模型性能上限、驱动人工智能产业落地的核心生产要素。

"决定模型性能上限"——这六个字,意味着什么?

意味着不管你花多少钱买了多好的模型、用了多先进的算力,如果训练数据本身是低质量的,这个模型的能力天花板就已经定死了。再好的厨师,也做不出山珍海味的铁锅拌土。

现实情况是,大多数企业在AI投入上的排序是:算力 > 模型 > 数据。这个顺序,刚好反了。

看一组真实的行业对比。同样是做智能制造的企业,A企业过去三年持续投入数据治理,建立了完整的设备传感器数据标准体系,历史数据全部完成质量认证和血缘标注;B企业把预算全部砸在了买算力和买模型上,数据治理基本是空白。

当两家企业都开始上预测性维护的AI模型时,A企业第一版就跑出了不错的结果,迭代周期三个月一轮;B企业在数据清洗上花了将近一年,第一版模型还在反复出问题,业务部门已经开始怀疑这个项目能不能落地。

这不是个别现象。今年六月国家数据局发布《实施方案》的背景,正是观察到了这个系统性的短板:中国不缺AI模型,不缺算力,缺的是足够多、足够好的行业高质量数据集。这个短板,本质上是数据治理能力的短板。

《实施方案》部署了六大专项行动,每一个行动的背后,都能找到对应的数据治理诉求:强基扩容是解决"有数据"的问题,标注攻坚是解决"数据有标签"的问题,提质增效是解决"数据质量可信"的问题,管理服务是解决"数据全生命周期可控"的问题。

六大行动,换一个角度看,就是把数据治理的各个环节拆开来,逐一建立国家级的标准和体系。

五、企业该怎么做:三个优先级

说完了宏观逻辑,说点具体的。

如果你现在负责一个企业的数据工作,面对"数据治理与高质量数据集"这道题,该怎么下手?

第一优先级:先把用于AI的核心数据搞清楚。

不要一上来就想着把全公司所有数据都治理好。这个目标虽然正确,但周期太长,容易半途而废。更务实的做法是:找到你最近六个月要跑的AI模型,把支撑这个模型的核心数据集作为治理的第一目标。集中力量先做好这一块,跑出结果,再扩展范围。

先求小而精,再求大而全。

第二优先级:把数据标准的问题先解决,其他问题才有意义。

数据质量管控做得再严,如果不同系统的同一个指标定义不统一,这些数据合到一起就是错的。标准是治理的地基——地基不稳,上面盖再高的楼也没用。

建议先从最核心的几个业务指标入手,比如"客户数""收入""激活率",把定义统一下来,白纸黑字写清楚,各个系统都遵守。这件事做到位,后续的质量管控才有意义。

第三优先级:用AI来做数据治理,不要用人工堆数据治理。

数据治理如果完全靠人工来做,有两个硬伤:第一,速度跟不上数据增长;第二,成本太高,难以持续。

现在有一类工具叫Data Agent,可以自动完成元数据扫描、数据质量检测、血缘追踪、异常告警等大量原本靠人工完成的工作。这类工具在2025-2026年已经从"实验室概念"变成了"可落地产品"。如果你的团队还在靠Excel和邮件做数据质量管理,是时候升级了。

AI做数据治理,治理好的数据再喂给AI——这才是那个真正能转起来的飞轮。

说到底,数据治理和高质量数据集不是两件事,它们是同一件事的两面:治理是过程,高质量是结果。你只有把过程做扎实了,结果才会好。

很多企业现在卡在AI落地上,症结不在模型,不在算力,就在这里。

先把数据的房子收拾干净,AI才住得进来。

本文来自微信公众号“数据驱动智能”(ID:Data_0101),作者:晓晓,36氪经授权发布。

+1
4

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

2026年中地铁十强微调,地铁进入存量时代。

1小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业