物理AI的超级飓风,让“假”数据迎来真超车
2026年,AI二创的刷屏让“想看什么自己做”成了常态。从照片里静态物象开口说话,到输入几句提示词就能生成拜年短片,从造内容、造画面到造人设,AI在C端市场展现出了惊人的娱乐爆发力。
当大众的视线还停留在这些光怪陆离的“数字玩具”上时,不久前黄仁勋提出,物理AI将是人工智能的下一个浪潮。这意味着,AI接下来需要的训练数据,需要严格遵循物理规律、无限接近真实世界。
从机器人叠衣服,到自动驾驶、低空经济飞行器、手术机器人,拥有万亿级市场规模的实体行业,都需要物理AI的加速。而AI合成数据,就是让物理AI赋能千行百业的最后一块拼图。“虚拟即真实”的逻辑,正在重构AI训练、制造、风控、研发的全链路。
这不是一个停留在实验室的学术概念,而是一场已经爆发、有望引发新一轮产业革命的超级飓风。
01
合成数据,成AI“无限燃料”
理解合成数据的万亿价值,首先要看懂AI产业所面临的“粮食危机”,对当下不少垂直产业来说,真实数据的获取难度堪称地狱级。
汽车行业自动驾驶技术的成长一路伴随着全方位考验,其本质上是AI系统认知现实世界能力的进化。在过去,车企要达成迭代就必须组建庞大的测试车队在全球各地日复一日地进行道路信息采集。
在此基础上,真正决定自动驾驶安全上限的,是发生概率极低但后果极其严重的“长尾场景”。例如,前车连环追尾、天气引发的侧滑,或者违章行人的突然“鬼探头”等。而为了在现实中测试极端场景下智能驾驶的反应能力,车企需要投入难以估量的成本去复现危机四伏的罕见路况。
以自动驾驶的紧急制动测试为例,为捕捉“暴雨夜间+积水反光+对向远光灯直射+黑衣行人横穿”等情景下的真实数据,车企不仅要在封闭测试场耗费巨资,还只能一天采集几十组有效数据,测试和折损成本耗费极高。
在2025年的世界智能网联汽车大会上,雷军就曾表示小米在组合辅助驾驶方面的第一期总投入就达到了57.9亿元,其智能驾驶团队的规模更是超过了1800人,可谓是触及了经济与效率的天花板。
在医疗这样高度敏感且封闭的行业中,困境则来源于互联网数据工具的失效。
在早期,训练高精度的癌症识别AI需要庞大且高质量的患者电子病历和多模态影像,但将患者信息输入给大模型也存在着隐私泄露风险。美国的AI医疗公司Confidant Health就曾因服务器配置不当,导致5.3TB心理患者的个人信息和就医记录等隐私数据泄露。
面对患者隐私泄露等影响颇深的风险,医院逐渐收紧对数据的管控。
全球医疗系统每年产生惊人的数据量,但因隐私红线和机构壁垒,其中大部分被深锁在医院的数据高墙内,导致顶尖AI企业空有强大的算法却“难为无米之炊”,缺乏核心的临床数据、病理数据喂养,AI在医疗领域的赋能步履维艰。
在金融领域,对客户个人信息、投资数据和贷款风险的评估要经历漫长的过程。以单一银行的风控AI来看,许多交易都是“正常的本地交易”,难以对客户形成宏观上的快速评估,因此反欺诈和黑产对抗高度依赖跨机构的交易数据。
但银行受限于金融监管和商业机密、无法共享真实客户信息,风控AI模型就只能在局部的数据里打转,难以应对全局性的金融犯罪。
垂直行业出于各类因素陷入困境时,合成数据的出现如同天降甘霖,它并非随机生成的“无意义噪声”或简单拼接的假数据,而是通过深度学习,在分析了真实数据底层分布规律后生成的“统计镜像”。
一方面,合成数据拥有真实数据的所有统计特性和业务逻辑,模型用它训练的效果与真实数据高度一致,甚至能抹平原始数据中的杂音;另一方面,它从源头切断了与真实自然人的关联,完美绕过严苛的数据隐私法规,让医疗、金融等曾经不敢碰的“禁区数据”变得唾手可得。
且在虚拟引擎中,批量生成的特定数据相较于现实世界的物理采集,成本呈指数级下降。AI初创公司Writer的Palmyra X 004模型几乎完全依赖高质量的合成数据进行预训练和微调,其最终在多项企业级逻辑基准测试中名列前茅,但研发和训练成本仅为传统途径的几十分之一。
可以说,合成数据已经远远超越了“数据平替”的范畴,它赋予了企业在数字空间中无限试错的特权,当千行百业的AI模型不再受制于真实数据、而是坐拥取之不尽的定制化“数据粮仓”时,产业的进化逻辑也将迎来重写。
02
硬核落地:“假”数据,真超车
目前,合成数据的应用不再是某种方向验证,而是化作真金白银的商业价值,那些率先在“虚拟世界”中囤积数据的企业,开始在现实竞争中以成果对传统模式进行降维打击。
2024年,西门子以106亿美元巨资收购工业仿真软件龙头 Altair Engineering,就是为发展合成数据生成引擎而下的一盘大棋。当下,自动驾驶、高端制造、金融风控与医药研发这四大核心赛道,也迎来了硬核的技术落地。
不久前,小鹏汽车发布第二代VLA大模型,其训练所吞吐的近1亿段视频片段中,绝大多数是在虚拟世界中推演生成的,庞大的数据量等效于人类司机连续驾驶65000年所能遇到的极限场景总和,让该模型在夜间暴雨场景下的目标识别准确率提升至98.7%。
对高端制造领域来说,AI的落地长期受困于对人工经验的依赖,以宝钢股份等龙头企业为例,过去高炉的火候控制、特种钢材的工艺参数保持等极度依赖“老师傅”,当工人水平不统一时,就容易出现炉温波动、能耗变高和产品稳定性差等问题。
2024年,宝钢股份与华为合作,以盘古大模型为基础开发了全球首个高炉专用大模型,进行大量合成数据的训练。截至2025年,宝钢股份已上线近300个AI应用场景,能够实现对内部状态的高精度、高时效性感知,炉温等关键指标的预测准确率也达到90%。
近期,索辰科技在世界物理AI模型发布会上,展示了反无定位系统、风场电磁低空一体化系统等关键技术。在演示中,仅用数小时便完成流体风扇的设计、仿真与定型,并且在噪音控制、运行效率、能耗水平等核心技术指标上完成对于行业内优秀公司产品的对标。
通过消化这些合成数据,高端制造业迅速跨越了漫长的经验积累期,不仅能提前预判设备的非计划停机,大幅降低维修损耗,还让复杂工艺参数的调优实现了自动化。对于大型制造企业而言,良品率哪怕仅仅提升0.1%,其背后代表的也是千万级人民币的净利润增量。
金融行业对数据的渴求与合规的忌惮同样强烈,华兴银行与腾讯混元大模型的合作为行业提供了经典范本。
金融机构在对公业务的尽职调查、信贷审批以及保险的核保环节,需要处理庞杂且高度敏感的客户资产与经营数据,通过引入合成数据技术,它可以生成庞大的“虚拟客户群体”,拥有与真实客户极其相似的信用特征、交易习惯和违约概率,但却不包含任何真实的敏感信息。
经过训练,混元大模型帮助华兴银行将贷款尽调报告生成时间从10天压缩至1小时,在无需触碰真实客户红线的前提下,风控业务的自动化审核效率直接翻倍,合规测试和外部数据采购的综合成本也降低近七成。
创新药研发领域耗时十年、耗资十亿美元的“双十”铁律,是行业数十年难以突破的成本瓶颈。根据2020年Evaluate Pharma的统计显示,其中肿瘤药的研发成本通常高达26亿美元、周期长达13年。
去年,礼来和英伟达成为这条艰难赛道上的破冰者,它们在最耗时耗力的靶点发现和分子筛选阶段,用AI在计算机中合成了数以亿计的“虚拟分子结构”,极大提升靶点识别的效率,将传统药物研发周期缩短至2-3年、失败率降低50%。
这种模式下,AI不仅完美避开了医学伦理困境,为绝症患者抢夺了最宝贵的救命时间、也为药企省下了数以亿计的研发资金。1月12日,礼来和英伟达共同宣布投资10亿美元建立人工智能药物实验室,正是因为它们看到了合成数据在医药研发中的终极潜力。
随着合成数据的持续爆发,数据银行这一全新业态或许也即将成型,企业不再需要冒着高成本与高风险获取真实数据,仅需在“数据银行”购买由权威机构认证、带有隐式合规水印的“定制化合成数据集”,就能高性价比地完成绝大部分训练。
到那时“假戏真做”将不再是大众的娱乐调侃,而是千行百业加速进化的绝对生产力。
本文来自微信公众号“明晰野望”,作者:明晰野望,36氪经授权发布。















