你以为在做AI，其实只是在堆垃圾

王建峰·2026年07月02日 11:39

AI转向以数据为中心，数据治理产出高质量数据集。

AI 从来不是遥不可及的玄学，也不是只有技术人才能玩转的工具。用 AI 解决文案、数据整理等高频痛点，就能轻松解锁生产力提升。

某制药公司花了一年时间、投入数千万，想用AI来辅助识别皮肤恶性肿瘤。

模型训练好了，准确率看起来也不错。但一到临床场景，问题就来了——医生发现，这个模型喜欢把带有"测量尺"的照片标记为恶性。没有尺子的照片，即使肿瘤特征更明显，模型反而不那么警觉。

排查之后才发现：训练数据里，需要精确测量的恶性肿瘤图片，医生习惯放一把尺子做参考；良性的普通照片通常不带尺子。模型忠实地学到了这个规律。它学会的不是"如何识别肿瘤"，而是"如何识别尺子的存在"。

这就是著名的"尺子问题"。

根据MIT的统计，企业中95%的AI项目以失败告终。失败的原因，大多数不是算法不够好，不是算力不够强，而是一句老话：垃圾进，垃圾出。

你以为在做AI，其实只是在把更多垃圾用更快的速度跑了一遍。

这件事，在2026年越来越成为一个绕不开的共识。国家数据局在今年6月正式发布了《关于推进行业高质量数据集建设行动的实施方案》——这是中国第一个系统部署行业高质量数据集建设的顶层行动纲领。发布的时间节点，本身就说明了问题：我们正在从"以模型为中心"转向"以数据为中心"。

模型的时代远没有结束，但数据治理的时代刚刚开始。

一、高质量数据集，到底"高"在哪里

很多人第一次听到"高质量数据集"，会以为就是"数据量多一点、准确度高一点"。

这个理解，差得很远。

以最近很热的大模型预训练为例。训练一个通用大语言模型，你可以从互联网上抓几千亿个token的文本丢进去跑。数量是够的，但里面有多少重复内容？有多少过时信息？有多少充斥着偏见的低质量论坛帖子？有多少机器翻译出来的语法扭曲文字？这些东西全学了进去。

为什么有些模型会"一本正经地胡说八道"？就是因为训练数据里有太多"一本正经的胡说八道"。

国家数据局的文件里，给高质量数据集下了一个明确定义：经过采集、加工等数据处理，可直接用于开发和训练人工智能模型，能有效提升模型性能的行业数据集合。文件还专门提出了"AI-Ready"的概念——高质量数据集必须满足结构完整性、内容多样性、标注准确性、模型适配性四个维度的要求。

翻译成大白话：不是你有多少数据，而是这些数据是否真的能用、能用好、能用对。

这里有一个很多企业容易忽视的细节：高质量数据集的"高质量"，不是数据本身天生就有的属性，而是经过一整套治理流程加工出来的结果。

原材料进了工厂，经过清洗、加工、质检、分类，才能变成合格产品。数据也一样——原始数据只是"矿石"，高质量数据集才是"精炼金属"。而把矿石变成金属的那个工厂，就是数据治理。

二、数据治理是"高质量"的生产车间

来做一个简单的类比：

你去一家工厂，原材料采购进来之后直接丢到生产线上，没有质检、没有规格标准、没有分拣。最后出来的产品合格率是多少？

这就是大多数企业今天对待数据的方式。

企业里典型的数据现状：订单数据在CRM，客户数据在ERP，日志数据在服务器，分析数据在Excel。每个系统对"客户ID"的定义不一样，对"成交时间"的口径不一样，对"退货"的分类标准不一样。你把这些数据收进来跑一个AI模型，模型学到的是什么？是业务规律，还是各个部门互相打架的口径分歧？

数据治理解决的就是这件事。

具体体现在四个层面：

数据标准化，让同一个概念在不同系统里说的是同一件事。"销售额"的定义，是含税还是不含税？是下单时间还是付款时间？这些不统一，任何分析结果都是混的。

数据质量管控，让缺失值、异常值、重复记录在进入分析之前就被处理掉。一个空值率超过30%的字段，放进模型只会增加噪音，不会增加信号。

数据血缘追踪，让你知道某个数据从哪里来、经过了哪些变换、被哪些下游系统在用。上游一个字段改了口径，下游受影响的分析全部要重跑——如果没有血缘，你甚至不知道哪些东西需要重跑。

元数据管理，让数据有"说明书"。这个字段叫什么名字、什么含义、谁在维护、上次更新是什么时候——没有这些信息，下游用数的人永远在猜。猜出来的结论，可信度可想而知。

这四件事加在一起，才是高质量数据集的生产基础。少了哪一件，最终出来的数据集都不可能真正"高质量"。

亿信华辰在2025年的项目实践中发现，在引入大模型辅助数据治理之后，一个大型金融机构在同等条件下，整体成本降低了25%，实施周期缩短了30%。但这组数字背后更重要的是：当数据治理的效率提上来了，企业才有能力持续、系统地生产高质量数据集，而不是靠几次"运动式整治"堆出来一批数据，然后扔着不管。

高质量数据集不是一次性工程，是持续运营的结果。数据治理，是让这个持续运营成为可能的底层基础设施。

三、"数据飞轮"：治理与质量的螺旋上升

今年的数据圈里，有一个词出现的频率极高：数据飞轮。

国家数据局的文件把它描述为"场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值"的良性循环。安徽省数据局把"打造安徽特色数据飞轮"列为下一步的核心目标。这个概念听起来宏观，背后的逻辑其实很具体。

用智能客服举个例子：

第一步，你有一个智能客服场景。把真实客服对话数据收集起来，做清洗、标注、质检——这是数据治理的工作——得到一批高质量的对话训练数据。

第二步，用这批数据训练专属模型，模型的回答质量明显比通用模型好。

第三步，模型部署之后，产生更多真实对话数据，再次进入治理流程，反哺回数据集，让下一版模型更好。

第四步，更好的模型带来更好的体验，用户愿意用、多用，产生更多高质量数据。

这个飞轮，每转一圈，数据质量更高，模型能力更强，业务价值更大。

但这里有一个关键前提，很多企业做飞轮的时候直接跳过了：飞轮能不能转起来，取决于第一步的数据治理做得好不好。

如果你收进来的对话数据，30%是重复的、20%是机器人自问自答的测试数据、另有10%是员工手误打错的乱码——这个飞轮不是转起来，是带着一堆垃圾原地打转。

飞轮的动力来源是高质量数据。高质量数据的来源是扎实的数据治理。没有后者，前者就是空话。

四、行业的真实差距：谁在认真做治理，谁就赢在起跑线

国家数据局《实施方案》里有一句话，值得单独拿出来看：

当前，全球人工智能发展正从"以模型为中心"加速转向"以数据为中心"，高质量数据集已成为决定模型性能上限、驱动人工智能产业落地的核心生产要素。

"决定模型性能上限"——这六个字，意味着什么？

意味着不管你花多少钱买了多好的模型、用了多先进的算力，如果训练数据本身是低质量的，这个模型的能力天花板就已经定死了。再好的厨师，也做不出山珍海味的铁锅拌土。

现实情况是，大多数企业在AI投入上的排序是：算力 > 模型 > 数据。这个顺序，刚好反了。

看一组真实的行业对比。同样是做智能制造的企业，A企业过去三年持续投入数据治理，建立了完整的设备传感器数据标准体系，历史数据全部完成质量认证和血缘标注；B企业把预算全部砸在了买算力和买模型上，数据治理基本是空白。

当两家企业都开始上预测性维护的AI模型时，A企业第一版就跑出了不错的结果，迭代周期三个月一轮；B企业在数据清洗上花了将近一年，第一版模型还在反复出问题，业务部门已经开始怀疑这个项目能不能落地。

这不是个别现象。今年六月国家数据局发布《实施方案》的背景，正是观察到了这个系统性的短板：中国不缺AI模型，不缺算力，缺的是足够多、足够好的行业高质量数据集。这个短板，本质上是数据治理能力的短板。

《实施方案》部署了六大专项行动，每一个行动的背后，都能找到对应的数据治理诉求：强基扩容是解决"有数据"的问题，标注攻坚是解决"数据有标签"的问题，提质增效是解决"数据质量可信"的问题，管理服务是解决"数据全生命周期可控"的问题。

六大行动，换一个角度看，就是把数据治理的各个环节拆开来，逐一建立国家级的标准和体系。

五、企业该怎么做：三个优先级

说完了宏观逻辑，说点具体的。

如果你现在负责一个企业的数据工作，面对"数据治理与高质量数据集"这道题，该怎么下手？

第一优先级：先把用于AI的核心数据搞清楚。

不要一上来就想着把全公司所有数据都治理好。这个目标虽然正确，但周期太长，容易半途而废。更务实的做法是：找到你最近六个月要跑的AI模型，把支撑这个模型的核心数据集作为治理的第一目标。集中力量先做好这一块，跑出结果，再扩展范围。

先求小而精，再求大而全。

第二优先级：把数据标准的问题先解决，其他问题才有意义。

数据质量管控做得再严，如果不同系统的同一个指标定义不统一，这些数据合到一起就是错的。标准是治理的地基——地基不稳，上面盖再高的楼也没用。

建议先从最核心的几个业务指标入手，比如"客户数""收入""激活率"，把定义统一下来，白纸黑字写清楚，各个系统都遵守。这件事做到位，后续的质量管控才有意义。

第三优先级：用AI来做数据治理，不要用人工堆数据治理。

数据治理如果完全靠人工来做，有两个硬伤：第一，速度跟不上数据增长；第二，成本太高，难以持续。

现在有一类工具叫Data Agent，可以自动完成元数据扫描、数据质量检测、血缘追踪、异常告警等大量原本靠人工完成的工作。这类工具在2025-2026年已经从"实验室概念"变成了"可落地产品"。如果你的团队还在靠Excel和邮件做数据质量管理，是时候升级了。

AI做数据治理，治理好的数据再喂给AI——这才是那个真正能转起来的飞轮。

说到底，数据治理和高质量数据集不是两件事，它们是同一件事的两面：治理是过程，高质量是结果。你只有把过程做扎实了，结果才会好。

很多企业现在卡在AI落地上，症结不在模型，不在算力，就在这里。

先把数据的房子收拾干净，AI才住得进来。

本文来自微信公众号“数据驱动智能”（ID：Data_0101），作者：晓晓，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。