中国数据治理与西方国家模式的不同点
中国正在构建前所未有的基础设施,将数据转化为可交易的“生产要素”——与土地、劳动力、资本和技术并驾齐驱的战略经济资源。这种方法与西方的数据治理有着根本的不同:中国并非将数据主要视为隐私问题,而是将其视为需要国家主导的市场机制的国家经济资产。对于国际人工智能从业者而言,理解这一框架至关重要,因为它影响着合规要求、技术架构以及获取中国数据进行模型训练的途径。
数据作为国家基础设施的政策逻辑
中国的数据要素生态系统源于一项具体的诊断:海量数据资源分散在政府机构、国有企业和私营科技平台等各个部门,形成信息孤岛,造成市场失灵,阻碍经济发展。政策应对措施将此视为一个需要政府干预的资源配置问题,将国家定位为数据交易的协调者,在政策制定者所称的“中国特色社会主义市场经济”中扮演着重要角色。
2022年12月,中共中央、国务院发布了具有里程碑意义的《数据二十条》,确立了数 据治理的四大支柱。其中最具创新性的是第一支柱,它通过“结构分离”来解决数据产权问题——该框架并非赋予数据所有权,而是区分持有权、 加工 权和 经营 权。这种巧妙的变通方法既避免了数据“所有权”这一哲学难题(数据本身具有非竞争性,且可无限复制),又促进了数据市场交易。其余支柱则通过分类数据管理,建立了数据流通和交易体系、收益分配机制以及安全治理体系。
第二个里程碑出现在2023年8月,中国财政部发布了全球首个国家数据资产会计处理规定,该准则于2024年1月生效。企业现在可以将符合条件的数据资源在资产负债表上确认为存货(用于出售的数据)或无形资产(用于提供服务的数据)。尽管该准则的实施仍处于早期阶段,但这项会计创新标志着中国致力于将数据金融化,使其成为经济基础设施。
2023年10月,国家数据局在国家发展和改革委员会的领导下成立,机构架构逐渐成型,整合了此前分散的地方管理部门之间的协调。国家数据管理局负责数据开发和流通,而国家互联网信息办公室则负责数据安全——这种分工反映了开放数据流动与维护数据控制之间持续存在的矛盾。
“数据可用但不可见”的技术基础设施
中国的数据基础设施运行遵循一个关键原则:在不暴露底层记录的情况下对数据进行计算。实现这一目标的技术架构包含三个集成层。
国家支持的数据交易所作为中介平台,负责数据产品的上架、定价和交易。上海数据交易所(2021年11月上线)是全国典范,其国际板块于2023年4月成立,旨在促进跨境交易并与国际数据供应商建立合作关系。北京国际大数据交易所和深圳数据交易所则构成了主要的枢纽网络。这些交易所负责产品注册,包括元数据和使用权,实行三权分离,要求买方在获得批准前明确使用场景,并整合第三方认证、安全验证和合规性检查。
隐私保护计算平台构成了使能层。微众银行的FATE(联邦人工智能技术使能器)自2019年起由Linux基金会托管,提供工业级联邦学习和安全的多方计算协议。蚂蚁集团的SecretFlow于2022年开源,涵盖了几乎所有主流的隐私计算技术。这些平台部署了联邦学习,用于在不集中原始数据的情况下进行协同模型训练;部署了安全的多方计算,用于在不泄露输入的情况下实现联合功能;部署了可信执行环境,提供基于硬件的隔离飞地;以及部署了同态加密,用于对加密数据进行计算。
可信数据空间代表了中国安全数据流的生产基础设施。国家数据管理局2024年11月发布的行动计划目标是在2028年前建成100多个可信数据空间,并于2025年宣布在企业、行业、城市和跨境应用领域开展试点项目。这些空间嵌入了数字合约,具备自动合规执行、实时监控、完整审计追踪和多方协调功能,并通过基于区块链的溯源追踪将数据提供者、用户和监管机构连接起来。
数据基础设施与人工智能模型训练的交汇点
中国的数据 要素 生态系统正通过多种机制与大型语言模型开发紧密相关。北京国际大数据交换中心启动了“AI炼金术计划”,旨在收集全球训练数据集。上海于2024年3月成立了政府主导的上海库帕斯科技股份有限公司,专门负责AI语料库的收集工作。上海的“5+6”垂直语料库工程分别针对金融、制造、教育、医疗、文化旅游和城市治理等领域。
人工智能训练数据的合规架构源自《生成式人工智能服务管理暂行办法》(2023年8月)——这是全球首个专门针对生成式人工智能的行政法规。训练数据必须来自合法来源,不得侵犯知识产权,且涉及个人信息时,必须获得同意或依据《个人信息保护法》提供法律依据。最初严格的“确保”数据质量要求已显著放宽为“提高”数据质量——这体现了对大规模实施挑战的务实考量。
三项具有约束力的国家标准将于 2025 年 11 月生效(GB/T 45652–2025 用于预训练数据,GB/T 45654–2025 用于服务安全,GB/T 45674–2025 用于标注),这些标准对详细的标注要求进行了编纂,包括训练有素的人员、内容有效性抽查和标准化监督。
隐私保护计算技术为敏感数据访问提供了合规途径。联邦学习使医院能够在不共享患者记录的情况下协作训练医疗人工智能模型。模型计算(MPC)允许金融机构在不泄露专有数据的情况下联合开发风险模型。上海人工智能实验室的DeepLink技术栈展示了该领域的前沿:混合训练现已通过电信网络覆盖京沪青海地区。这种分布式架构——部分原因是受美国出口管制强制要求集成多厂商GPU的影响——表明隐私保护分布式训练如何能够实现跨司法管辖区的合规模型开发。
中国与GDPR:根本不同的运作假设
要理解中国的做法,就必须把握其与欧盟GDPR框架在概念上的差异。这种差异不仅体现在监管层面,更体现在理念层面。
欧盟将数据治理视为权利保护:数据隐私保护延伸了个人自主权,使其免受企业和国家权力的过度干预。这种以人为本的传统认为个人数据本质上属于个人,而相关法规旨在维护这种关系。由此形成的框架侧重于同意机制、目的限制和数据最小化——所有这些都旨在保护个人免受剥削。
中国将数据治理视为产业政策:数据是一种战略性国家资源,其价值被低估,目前在缺乏监管的市场中受到市场扭曲。国家的主要角色并非保护,而是分配——引导数据流动以实现国家经济效益最大化。《个人信息保护法》仍然关注个人利益,但这些利益必须在一个以数据生产潜力为优先的框架内运作。
这解释了中国数据处理方式的几个显著特点:某些类别的数据强制本地化、跨境数据传输的安全评估、国家支持而非纯粹的私人市场,以及明确推动企业在资产负债表中 体现数据。其根本逻辑在于,数据资源——如同土地或矿产资源——需要协调开发利用,而非分散的个人控制。
对于国际从业者而言,这造成了一种“双栈”现实:许多跨国公司目前运营着独立的全球IT架构和中国本地化IT架构。三项法律框架——《网络安全法》(2017年)、《数据安全法》(2021年)和《个人信息保护法》(2021年)——造成了重叠的合规要求。跨境数据传输需要根据数据类型和数据量进行政府安全评估、第三方认证或采用中国标准合同条款。
近期迹象表明政策有所调整:2024年3月生效的规定放宽了一些严格的跨境要求,但其基本框架——将数据视为国家管理的生产要素——依然保持不变。
人工智能公司的技术架构要求
在中国开发或部署人工智能系统的公司必须在其技术架构中构建多种功能。
数据溯源系统必须记录所有培训数据来源,维护个人信息的同意记录,并标记可能被归类为“重要数据”的数据,此类数据跨境传输需要政府批准。重要数据的定义因行业而异,且不断发展变化,因此需要持续监测。
内容安全基础设施包括用于过滤违禁内容的预训练语料库、实时输出审核以及模型优化功能,以便在法规规定的三个月期限内处理违规行为。算法备案和注册系统必须符合 CAC 的要求。
保护隐私的数据管道能够以合规的方式访问敏感的中国数据:联邦学习用于分布式训练,差分隐私用于语料库匿名化,TEE/MPC 集成用于安全的多方场景。这些不仅仅是合规机制,更是提升竞争力的关键——它们提供了获取原本无法访问的数据资源的途径。
随着美国出口管制迫使华为昇腾、毕仁、Moore Threads、寒武纪等国内加速器采用多厂商GPU集成,异构计算基础设施已成为标准配置。跨数据中心的长距离训练已得到验证,展现了隐私保护型分布式训练如何大规模运行。
小结:数据治理需要不同的模式
中国的数据 要素 倡议代表了一种国际人工智能从业者不容忽视的数据治理新架构。该框架通过与西方模式截然不同的机制,解决了实际的协调难题——打破数据孤岛、促进跨组织协作、建立定价机制。
技术创新意义重大:工业级联邦学习平台、基于区块链的可信数据空间、具备集成合规性的国家支持型交易所,以及分布式异构训练基础设施。这些不仅仅是监管措施,更是符合中国特色的人工智能发展实用工具。
对于实践者而言,关键在于中国已经构建并将继续构建一套平行的数据基础设施,这套基础设施针对个人、企业和国家之间关系的不同假设进行了优化。无论作为合作伙伴、竞争对手还是观察者,参与中国人工智能发展都需要理解这套基础设施,它并非偏离普遍标准,而是一个拥有自身逻辑、能力和约束的连贯的替代系统。
本文来自微信公众号“数据驱动智能”(ID:Data_0101),作者:晓晓,36氪经授权发布。















