香港大学等提出增量天气预报模型VA-MoE,参数精简75%仍达SOTA性能

超神经HyperAI·2025年10月13日 16:26
用于增量天气预报的变量自适应专家混合模型

香港大学与浙江大学等研究团队推出「变量自适应专家混合模型(VA-MoE)」。该模型通过分阶段训练与变量索引嵌入机制,引导不同专家模块专注特定类型的气象变量,当新增变量或站点时,无需全量重训即可实现模型扩展,在保障精度的同时大幅降低计算开销。

天气预报作为影响社会运行与防灾决策的关键领域,始终面临大气系统复杂多变带来的巨大挑战,每一次预报能力的提升都对人类生产生活意义深远。长期以来,数值天气预报(NWP)一直是该领域的主流手段,它依托大气动力学方程组,通过求解偏微分方程模拟温度、气压、风速等关键变量的演变过程,实现对天气系统的数值化推演。

近年来,随着人工智能技术的突破,深度学习凭借其强大的时空模式识别能力,在气象建模中展现出巨大潜力,催生了「气象人工智能(AI4Weather)」这一新兴交叉方向。然而,现有 AI 气象模型大多基于一个理想假设——即所有气象变量在训练和预测时均可同步获取。这与实际观测中数据来源多样、采集频率不一的现实严重不符。例如,高空温度依赖卫星或探空仪获取,更新较慢;而地面降水、风速等则由密集站点实时监测。这种数据异步性导致模型在引入新变量时,必须全量重新训练,带来极高的计算成本。

为应对这一挑战,香港大学、浙江大学等机构的研究团队设计了「增量天气预报(IWF)」新范式,推出「变量自适应专家混合模型(VA-MoE)」。该模型通过分阶段训练与变量索引嵌入机制,引导不同专家模块专注特定类型的气象变量,当新增变量或站点时,无需全量重训即可实现模型扩展,在保障精度的同时大幅降低计算开销。

相关研究成果以「VA-MoE: Variables-Adaptive Mixture of Experts for Incremental Weather Forecasting」为题,已被计算机视觉领域国际顶会 ICCV25 接收。

研究亮点:

* 首次对天气预报增量学习新范式进行系统性探索,构建了可量化评估模型扩展性与泛化能力的基准

* 提出首个专为增量大气建模设计的框架 VA-MoE,通过变量索引嵌入驱动的上下文变量激活实现专家专业化

* 基于 ERA5 数据集的大规模实验表明,在数据量减半、参数量缩减至 25% 的条件下,VA-MoE 在高空变量预报中显著优于同类模型

论文地址:https://arxiv.org/abs/2412.02503

ERA5 数据集的高空与地面变量划分

该研究以欧洲中期天气预报中心(ECMWF)发布的主流大气再分析数据集 ERA5 为实验基础,覆盖 1979 年至今的连续气象观测数据,常规实验采用 0.25° 空间分辨率(对应网格尺寸 721×1440);仅在消融实验中,为控制计算复杂度,采用 1.5° 分辨率版本(网格尺寸 128×256),确保不同实验场景下数据适配性与计算效率的平衡。

从时间维度划分,数据集被明确分配至实验的不同阶段:

* 初始训练阶段采用 1979-2020 年的 40 年数据,为模型奠定基础气象知识储备;

* 增量训练阶段使用 2000-2020 年的 20 年数据,适配新变量引入后的参数优化需求;

* 测试阶段则选取 2021 年全年气象变量数据,以独立数据验证模型在未见过样本上的泛化能力,避免数据泄露对结果可信度的影响。

* 在变量配置上,如下图所示,实验共涉及 5 个高空变量(Upper-Air Variables)与 5 个地面变量(Surface Variables):

* 高空变量:包含 Z(位势高度)、Q(比湿)、U(东西向风速)、V(南北向风速)、T(温度)5 种类型,每种类型均定义在 13 个不同气压层上,主要用于模型初始训练阶段,构建核心大气动力学建模能力;

* 地面变量:含 2 米气温 T2M、10 米东风速 U10、10 米南风速 V10、平均海平面气压 MSL、地面气压 SP 等,作为增量变量,在模型第二阶段(增量训练阶段)引入,模拟实际观测中变量动态扩充的场景。

大气变量概要

VA-MoE:面向增量学习的变量自适应气象预报模型架构

VA-MoE 的核心运行逻辑围绕「两阶段训练范式」展开,如下图所示,其完全模拟实际观测中「数据逐步扩充」的场景:第一阶段为「初始阶段」,仅使用高空变量训练模型,让模型先掌握大气高层的核心动力学规律;第二阶段为「增量阶段」,在冻结第一阶段已训练参数的前提下,加入地面变量,仅训练为新变量新增的模块,最终形成完整模型。

初始阶段(左)和增量阶段(右)的说明

从架构基础来看,如下图所示,VA-MoE 以 Transformer 为核心 backbone,但针对气象数据的多尺度、强关联特性做了关键优化。模型处理输入数据时,编码器提取的输入特征首先经过归一化层(normalization layer)和自注意力层(self-attention layer),自注意力层的输出与残差连接融合;随后经过另一归一化层,再输入 VA-MoE 核心模块进行变量自适应计算。为避免深层网络训练中「梯度消失」导致的知识断层,框架还集成了「残差连接(residual connection)」机制:每一步计算后均保留部分原始特征,确保高层网络仍能有效继承低层提取的基础气象信息(如地形对近地面风速的影响),大幅提升了对长期气象序列的建模稳定性。

初始阶段和增量阶段的详细结构

在训练优化层面,VA-MoE采用「多任务联合损失」机制,兼顾预报精度与物理一致性。该机制包含两个核心部分:一是动态预测损失,依据变量的物理特性差异化分配优化权重,对温度、风速等快速瞬变变量赋予更高权重,以强化对瞬时变化的捕捉能力;而对位势高度等缓变变量,则采用渐进式权重调整,以维持长期预报的稳定性,从而克服传统模型导致的关键动力学特征丢失问题。另一方面,模型引入重建损失作为辅助任务,通过编码器-解码器结构要求模型先准确还原原始气象场,在此过程中学习大气能量守恒、质量守恒等本质特征,再进行预报任务。

在此基础上,如下图所示,模型构建了「专精+协同」的专家体系。针对训练阶段的 5 类核心变量(如 Z500、温度、风速等),一方面为每类变量配置独立的「通道自适应专家(Channel-Adaptive Experts, CAE)」,例如温度 CAE 仅专注于温度的时空演变规律,结合温度的「身份标签」筛选关键特征(如昼夜温差、锋面过境时的温度骤变),通过专业化建模提升单变量预报精度;另一方面设置「共享专家(Shared Expert)」模块,整合所有 CAE 输出的局部信息,捕捉多变量间的系统级关联(如温度升高→气压降低→风速增强的连锁反应),避免因过度专精导致的「只见树木不见森林」,确保模型能还原大气系统的整体动力学行为。

VA-MoE 的图示

VA-MoE 性能验证:精度媲美主流模型,增量学习优势显著

为系统评估 VA-MoE 在气象预报中的实际效能,研究团队围绕「精度、效率与扩展性」3 个维度,基于真实气象数据构建了完整的实验体系。

实验核心是将 VA-MoE 与当前 9 种主流气象 AI 模型(包括 Pangu-Weather、GraphCast、ClimaX 等)进行对比,包括 500hPa 位势高度 Z500、10 米东风速 U10、850hPa 温度 T850、2 米气温 T2M 等,重点评估其 5 天内的预报性能。关键区别在于训练逻辑:对比模型多采用「高空与地面变量一次性联合训练」的传统方式,而 VA-MoE 采用「先高空、后地面」的两阶段增量策略,从而突显其在变量扩展方面的优势。

在预报精度方面,如下图所示,VA-MoE 在地面与高空变量预测中均表现良好。针对 T2M、U10 等关键地面变量,VA-MoE 的预测精度与Stormer、GraphCast 相当,并显著优于 ClimaX、FourCastNet 等模型,在短期至长期预报中均保持稳定。进一步扩展到 V10、海平面气压(MSL)等变量时,VA-MoE优势更为明显,仅在 T2M 上略低于 GraphCast,与 FengWu、FuXi 等主流模型持平。

4 个变量下 10 个模型的 RMSE↓ 对比分析

在训练效率方面,基于 40 年数据以增量模式训练的 VA-MoE,仅需标准迭代次数的一半即可达到相近精度;即便数据缩减至 20 年、迭代次数降至四分之一,模型仍可维持业务可用的精度,显著降低了变量扩展带来的计算成本。

高空变量预测进一步验证了 VA-MoE 的增量优势。研究比较了 3 种训练策略:仅训练高空变量的 VA-MoE、增量加入地面变量的 VA-MoE(IL),以及传统联合训练模型。结果显示,仅训练高空变量的 VA-MoE 精度已与 GraphCast 相当,优于 IFS 与 Pangu-Weather;而增量式 VA-MoE 在引入地面变量后,未出现对高空变量的预测能力退化,且在 500hPa 位势高度(Z500)的长期预报中精度有所提升,验证了其「学新不丢旧」的能力。

为进一步验证模型结构有效性,团队设计了消融实验,将 VA-MoE 与视觉 Transformer(ViT)及其专家扩展版本(ViT+MoE)对比。尽管 ViT+MoE 参数量接近 VA-MoE 的两倍,但在 6 小时、3 天与 5 天三个预报节点上,VA-MoE 精度仍显著更高,表明其「通道自适应专家」机制在参数量受限场景下仍具优势,尤其适合变量动态扩展的业务环境。

AI 驱动气象预报革新,突破传统数值模型边界

在 VA-MoE 所关注的「高效适配多变量、降低更新成本与提升预报精度」这一方向上,全球学术界与企业界正形成合力,持续推动气象建模范式的深度革新。

学术界围绕核心技术瓶颈,在模型架构创新与数据利用效率方面取得重要突破。剑桥大学、艾伦·图灵研究所与微软研究院联合开发的「Aardvark Weather」,作为首个完全脱离传统数值框架的端到端 AI 系统,实现了从多源观测数据到高分辨率预报的直接映射,不仅大幅降低对超算资源的依赖,更将专项模型的开发周期从数月压缩至数周,充分验证了纯数据驱动路径的业务可行性。

论文标题:End-to-end data-driven weather prediction

论文地址:https://www.nature.com/articles/s41586-025-08897-0

复旦大学联合上海科学智能研究院、中国气象局等机构研发的 FuXi-Weather 系统,则开创性地实现了从卫星亮温到预报结果的完整端到端建模,摆脱了对传统数值模式初始场的依赖,即使在非洲等观测稀疏区域,其预报精度仍稳定超越欧洲中期天气预报中心的 HRES 系统。

论文标题:A data-to-forecast machine learning system for global weather

论文地址:https://www.nature.com/articles/s41467-025-62024-1

企业界则聚焦于技术落地与场景适配,展现出卓越的工程化能力。谷歌 DeepMind 推出的 GraphCast 基于先进的图神经网络架构,在 ERA5 再分析数据训练后,可在 1 分钟内完成未来 10 天的全球天气预报,在 1380 个测试变量中超过 90% 的指标精度优于 HRES 系统,并能提前 3 天有效识别气旋与大气河流等极端天气信号,其开源策略进一步推动了技术普惠。

论文标题:UT-GraphCast Hindcast Dataset: A Global AI Forecast Archive from UT Austin for Weather and Climate Applications论文地址:https://arxiv.org/abs/2506.17453

微软研发的 Aurora 大模型采用「预训练-微调」的两阶段策略,凭借 13 亿参数的灵活架构,在天气、空气质量与海浪预测等多任务中实现89%的综合准确率,计算速度较传统数值模型提升 5000 倍,通过轻量微调即可快速适配各类业务场景。

论文标题:A foundation model for the Earth system

论文地址:https://www.nature.com/articles/s41586-025-09005-y

展望未来,随着多源观测数据的持续丰富与基础模型的不断进化,气象 AI 有望在极端天气预警、气候变化评估和专业行业服务等领域发挥更大价值,逐步实现从「辅助预报」到「驱动决策」的角色转变,为人类社会应对天气气候挑战提供更加智能的技术支撑。

本文来自微信公众号“HyperAI超神经”,作者:田小幺,36氪经授权发布。

+1
5

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

AI牌桌没赶上,汽车也快翻了。

4小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业