搜索

36氪Auto
数字时氪
未来消费
智能涌现
未来城市
启动Power on
36氪出海
36氪研究院
潮生TIDE
36氪企服点评
36氪财经
职场bonus
36碳
后浪研究所
暗涌Waves
硬氪
媒体品牌
企业号
企服点评
36Kr研究院
36Kr创新咨询
企业服务
核心服务
城市之窗
政府服务
创投发布
LP源计划
VClub
VClub投资机构库
投资机构职位推介
投资人认证
投资人服务
寻求报道
36氪Pro
创投氪堂
企业入驻
创业者服务
创投平台

搜索

我要入驻

500美元刷新SOTA，训练成本砍到1/200，华人团队重构视频生成范式

量子位·2025年07月17日 16:15

华人团队出品，已开源！

你可能听说过OpenAI的Sora，用数百万视频、千万美元训练出的AI视频模型。

但你能想象，有团队只用3860段视频、不到500美元成本，也能在关键任务上做到SOTA？

比如这个图生视频：攀岩者在小行星攀岩，人体运动与太空光影完美仿真。

视频扩展也是不在话下，给定起始帧或结束帧，让存钱罐小猪直接在大溪地的冲浪圣地上冲浪。

这些精美的视频就来自于香港城市大学等团队最新联合发布的图像-视频生成模型——Pusa V1.0（菩萨1.0）。

Pusa V1.0在基础大模型Wan2.1-T2V-14B的基础上引入向量时间步适应（vectorized timestep adaptation，VTA ）机制，仅使用3860对视频-文字数据、约500美元成本进行微调，就在在图像转视频 (I2V) 超越了Wan-I2V-14B，实现了SOTA，并解锁了诸多零样本任务能力。

500美元实现SOTA

如上文所说，Pusa V1.0文本到视频（T2V）模型 Wan-T2V-14B 微调而来，用于图像到视频生成（I2V）。

与其他会破坏基础模型架构的微调模型不同，Pusa采用VTA机制，从而实现最小、非破坏性的优化，将时间步长从标量扩大到矢量。它完全保留了基础模型的预训练先验，并实现了更有效的时间学习。

全面的任务支持

凭借其灵活的矢量化时间步适应策略，Pusa仅需10个推理步骤就能够执行多种视频生成任务。

这些能力都是其“涌现属性”，能够以零样本方式（无需任何任务特定的训练）扩展到：图像到视频、开始-结束帧、视频扩展、文字转视频、视频转场等任务中。

例如，以9个起始帧（左视频）和12个结束帧（右视频）作为条件，让模型生成中间的60帧画面。

或者，直接输入文字，让模型把一辆汽车从金色变成白色。

VTA如何让视频生成更自然？

由于视频本质上是按固定帧率（如电影的每秒 24 帧）连续播放的一系列图片。在视频扩散模型（VDM）中，模型通常将整段视频拆解为逐帧图像进行建模。

在传统的做法中，所有帧共享一个标量时间步长变量，模型对所有帧同步进行相同程度的降噪。不过，这就意味着让所有帧在降噪过程中步调一致，同时演化。

由此，后面的画面无法获得前一帧画面的约束信息，从而使I2V（image-to-video）的效果过于僵硬。

此外，由于图像输入不同于模糊抽象的文本输入，其作为刚性条件，对“视频生成起点”限制非常严格。模型在保持原图约束的同时，必须自己“猜”这个图像之后会怎么动。

因此，为了生成连贯动态的视频，不同帧之间应该以不同速度/时间状态进行演化，从而让后续帧的去噪过程能尽可能的收到前一帧先验的控制。

由此，研究提出VTA，为每一帧引入一个独立的时间编码。这样就允许模型能对每帧的去噪进度和时间位置进行精细控制，从而更好地模拟现实中帧的时序演化，使生成的视频在动态表现上更连贯、自然。

具体而言，VTA通过帧感知的流匹配（Frame-Aware Flow Matching, FAFM）使每一帧能够独立演化，同时赋予模型对同步与异步时间结构的建模能力。最终，它通过向DiT注入自定义的时间嵌入，实现了高效、统一、非破坏性的多任务视频生成。

在训练层面，Pusa 采用了帧感知的流匹配（FAFM）目标函数，模拟每一帧在时间轴上独立演化的理想速度。此外，为了始终保持起始图像作为条件约束，其对应的时间步分量在整个推理过程中都被设置为零。

在模型结构上，VTA 则将这一目标通过向量时间步嵌入落实到 DiT 框架中，实现推理阶段的帧级动态控制。

在推理时，Pusa 允许为每一帧指定不同时间步长，从而实现起始帧固定、末帧补齐、关键帧约束等多种时间控制策略。这种“从目标到机制”的结合，是 Pusa 不仅生成自然，更易泛化的关键。

Pusa V1.0使用LORA＋DeepSpeed Zero2在8张80GB内存的GPU上进行微调。实验表明，Pusa V1.0 超越了同样基于Wan-I2V-14B微调而来的Wan-I2V，实现了SOTA。

与此同时，Pusa V1.0所需的参数更新数比Wan-I2V少10倍以上，这表明Pusa仅仅关注与时间相关的模块，从而保留了基础模型的先验知识。与之相对的，Wan-12V则表现出对基础模型先验知识的破坏。

可以说，Pusa V1.0以极致轻量化的训练成本为之后的视频生成建立了可扩展且多功能的范例。

模型目前已开源，详情可参考文末链接。

One More Thing

根据Pusa的介绍文档，模型的名称源于中文中的菩萨（“千手观音”）。

观音菩萨多手的图案象征着她无边的慈悲和无量的能力。

团队采用这个名称是为了表明模型使用多个时间步长变量来实现丰富的视频生成功能。

模型更小，意味着它能更快地进入每个人的电脑，而只有当技术真正服务于每一个创作者的时候，它才成为了真正的“菩萨”。

参考链接：

[1]项目主页：https://yaofang-liu.github.io/Pusa_Web/

[2]huggingface:https://huggingface.co/RaphaelLiu/PusaV1

[3]arxiv:https://arxiv.org/abs/2410.03160

本文来自微信公众号“量子位”，作者：henry ，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

+1

22

好文章，需要你的鼓励

你可能也喜欢这些文章

高情商AI Agent来了，剑桥团队推出进化RL框架EvoEmo，靠愤怒、悲伤成功“讨价还价”

全流程国产GPU，上下文提速100倍，中国科学院发布「线性复杂度」类脑大模型

Meta超级智能实验室首篇论文：重新定义RAG

扎克伯格的豪赌初见成效？Meta新方法让LLM长上下文处理提速30倍

和丛乐聊基因编辑：碳基生命如何面对硅基挑战？

用 WiFi 测心跳：不穿设备，也能精准监测

清华教授高小榕：脑机接口竞速，中美在不同路径上“并跑”

花一万元植入DeepSeek，一场没有终点的流量游戏

数字复活来袭，你会“复活”自己的挚爱么？

特邀作者

TA没有写简介，但内敛也是一种表达

最近内容

马斯克xAI自研推理芯片曝光，代号X1、台积电3纳米工艺、明年就量产

Hinton万万没想到，前女友用ChatGPT跟他闹分手

Meta超级智能实验室首篇论文：重新定义RAG

中央网信办部署开展“清朗·2025年暑期未成年人网络环境整治”专项行动

中央网信办启动2025暑期未成年人网络整治专项行动

2025-07-17

关于36氪

投资者关系

36氪欧洲站 36氪欧洲站 36氪欧洲站 Ai产品日报

网络谣言信息举报入口

热门推荐

合作伙伴

36氪APP下载

iOS & Android

36氪APP让一部分人先看到未来

36氪

鲸准

氪空间

推送和解读前沿、有料的科技创投资讯