视频生成一长就漂移竟是前序帧「太干净」惹的祸,研究揭示共享噪声水平才是长视频稳定关键

量子位·2026年03月17日 15:30
3小时无退化生成,颠覆自回归视频范式

自回归视频生成越往后越崩的问题有救了!

随着视频生成向长时序演进,自回归(AR)扩散模型因其支持流式输出的特性,受到了学术界和工业界的广泛关注。然而,现有的AR生成范式在迈向“无限长”时,始终面临一个核心痛点:训推不一致导致的误差累积。这使得生成的视频越往后,时序漂移和画面崩坏问题(drift)就越严重。

为了缓解这一退化问题,现有的方法尝试了多种路径,例如模拟预测误差、引入First frame sink或者Self-rollout机制。但这些修补方案都存在各自的局限性,比如使用frame sink往往会导致视频的场景变化受到严重限制。

长时序下的漂移问题,其根源到底在哪里?

「自回归生成的初衷」与「干净上下文的陷阱」

自回归视频生成模型的初衷,是为了像语言模型一样,一段一段地生成视频,从而突破单次生成的物理显存限制。在这个过程中,主流的做法是等待前一个视频块完全去噪,变成“干净”的画面后,再作为条件输入给下一个块。

中国科技大学、香港中文大学、同济大学、腾讯混元、安徽省数字安全重点实验室的人员组成的研究团队回溯源头分析后发现,这种“过于干净”的上下文,恰恰是导致时序漂移的罪魁祸首。在实际推理中,前序块的生成不可避免地会带有微小的预测误差。当模型接收到一个完全没有噪声(或极少噪声)的上下文时,它会以极大的置信度将这些“瑕疵”当作绝对正确的真实条件。随着自回归步数的增加,这种误差被不断传递并成倍放大,最终导致了严重的Drift。

HiAR:完全去噪的上下文不是必须的

为了「探究drift仍然存在的原因」以及「高效的解决这个问题」。中科大,MMLab,同济和混元团队联合推出HiAR

前序帧完全去噪是必须的吗?

团队首先重新审视了双向扩散模型(Bidirectional Diffusion)。在双向生成中,所有视频帧是共享噪声水平、同时去噪的,并没有让前序帧提前去噪干净,也能保持全局的连续性和一致性。本质来说,这是由于扩散模型在往往有coarse-to-fine的生成模式,coarse阶段的去噪需要coarse的context就足够了。这一规律同样可以迁移到Causal AR Diffusion中,基于此,团队重新规划了帧间依赖关系,推出层次去噪框架。

HiAR不再串行地等待前一个视频块完全生成,而是在每一个去噪步中,对所有的视频块进行因果生成。这意味着,上下文和当前生成块始终共享相同的噪声水平。这种简单的重构,不仅大幅减少了块与块之间的误差传递,还带来了一个意外之喜——它天然支持流水线并行推理。

HiAR如何避免“动作僵化”?

在自回归视频模型的蒸馏训练中,研究团队经常会遇到一个棘手的问题:模型为了轻易降低损失,会寻找捷径,倾向于生成几乎静止的“低运动幅度”视频。

为了解决这个问题,团队在训练阶段引入了前向KL正则化(Forward-KL regularizer)。这里有一个非常有趣的发现:当前蒸馏得到的Causal模型,实际上仍然保留了相当不错的Bidirectional attention能力。基于这个现象,团队在双向注意力模式下计算前向KL正则损失。这使得模型在不干扰原有蒸馏损失的前提下,被有效约束去保持原视频的动态多样性与合理的运动幅度。

实验证明,这一设计让HiAR在保持画面稳定的同时,完美保持了教师模型的高动态表现力。

HiAR效果如何?分钟级无退化生成

研究团队在权威的VBench长视频(20s)基准测试上对HiAR进行了全面评估。结果表明,HiAR展现出了当前自回归模型的显著优势。特别是在长时序的稳定性上,HiAR的Drift Score(漂移分数)降到了最低(0.257),相比基线方法显著减少了时序漂移,在长时序下依然保持了极高的画质与语义稳定。在Quality等核心视觉指标上,HiAR也取得了最优成绩。

更令人兴奋的是,HiAR真正实现了分钟级的无退化视频生成

在团队的测试中,HiAR成功实现只训练5秒长度视频的情况下生成了3小时的高质量连续视频。

当然,团队也坦诚地指出,由于当前版本没有引入任何外部记忆模块,并且只使用了Wan1.3B小模型蒸馏,在极长时序下视频的语义连续性以及指令遵从会受到一定影响,但画质退化(drift)已经得到了很大的改善(欢迎大家使用团队的开源代码进行尝试)。

HiAR推理快吗?

除了生成质量的飞跃,HiAR在工程落地上的优势同样明显。得益于分层去噪架构打破了传统AR模型“逐块串行”的枷锁,团队在4步去噪的设置下解锁了流水线并行推理能力。实验数据显示,在不牺牲任何视频质量的前提下,HiAR实现了约1.8倍的推理加速,吞吐量达到30 fps,单chunk延迟低至0.30s。这为高质量长视频的实时流式生成铺平了道路。

长视频生成的正确道路是什么?

目前解决训推不一致的方法是模拟预测误差,first frame sink或者self-rollout,但这三者都存在各自的问题。

HiAR为自回归长视频生成解决这个问题提供了一种新的思路,证明了简单的共享噪声水平就能够有效打破误差累积的魔咒。团队的方法独立于frame sink以及基于context压缩的方法,具有很大的发展空间。

论文标题:HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising

论文链接:https://arxiv.org/abs/2603.08703

代码:https://github.com/Jacky-hate/HiAR

网页:https://jacky-hate.github.io/HiAR/

本文来自微信公众号“量子位”,作者:HiAR团队 ,36氪经授权发布。

+1
4

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000
36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业