靠视频大模型赚钱,还是个梦
今年AI行业最热闹的领域,便是视频生成赛道。国内各家大厂激情开战,产品迭代目不暇接。
从年初开始,快手可灵2.0、字节即梦3.0、阿里万相2.1、腾讯HunyuanCustom、生数科技Vidu2.0、MiniMax旗下Hailuo 02等模型先后登场,纷纷将去年先声夺人的Sora甩在身后。
激战之下,AI视频模型的语义响应、画面质量、动态质量、真实度、美感都有了质的飞跃,商业化前景也肉眼可见。
5月27日,快手公布了2025年第一季度财报。其中,第一季度内收入超过1.5亿元的可灵AI被单独拎出,重点提及。5月28日,快手在港股市场高开6.46%,并在数日内接续上涨,截至7月15日,涨幅已超过30%。
在公开场合,字节跳动Seed图像与视频生成负责人黄伟林也将2025年“盖章”为图像生成商业化元年。据公开数据,爱诗科技旗下视频生成平台Pixverse的月订阅收入,也已达到了千万元水平。
不过,模型厂商竞逐虽然热闹,但距离真正“解放”创作者生产力的距离还很遥远。
多位视频生产者对《财经天下》表示,AI视频输出的“一致性”“运动性”对各家都还是个难题,当下想用AI省钱不容易——而视频模型厂商们,也明显有点“卷不动”了。
01、视频模型内卷升级
今年4月,快手旗下的可灵AI升级到了2.0版本。“五一”假期前,快手专设了可灵AI事业部,部⻔负责人直接向快手CEO程一笑汇报。
根据全球大模型整合应用平台Poe发布的数据,今年1月~5月,快手可灵系列视频生成大模型的合计使用份额已超过30%,超越了Runway(23.6%)和Veo-2(16.6%)。
这距离可灵AI上线仅仅过去了一年。去年春节期间,OpenAI旗下视频应用Sora点燃了AI视频生成赛道,引来国内众多企业跟进。成立于2024年6月6日的可灵AI,与其他大厂相比入局并不算早。但其后来居上,创造了上线三个月便服务超260万用户的纪录。
一年后,快手可灵已积攒了2200万的全球用户,并曾作为国产大模型代表,在官方场合与DeepSeek被并列提及。
从事AI视频领域软件研发的陈典对《财经天下》表示,可灵之所以能抢占先机,关键在于产品化的速度。
“可灵上线时缺少同类竞品,快手率先实现了商业落地。这种先发优势给可灵带来了明显的红利,早期用户习惯养成后,往往会产生较强的平台黏性。”
作为第一个脱颖而出的视频生成模型,可灵的技术水平曾独领风骚。AI视频广告导演六六表示: “去年,可灵的视频生成清晰度能达到1080P。国内其他厂商都没达到,其视频出品效果也更稳定。”
但随着技术迭代,竞争者层出不穷,可灵的“霸主”地位正在被后来者们步步追赶。
可灵AI发布后,短时间内腾讯混元、阿里通义万相便加入战局,MiniMax旗下的海螺视频App也在全球上线。同时,与基座大模型多被实力雄厚的大厂包揽不同,AI视频生成领域中,不少创企们表现不俗。
2024年4月,生数科技发布了对标Sora的视频大模型Vidu 1.0,并于今年1月更新至2.0版本。爱诗科技旗下的PixVerse则从2024年7月开始,以近2个月一次的速度进行迭代。
今年5月,一度在大模型混战中“掉队”的谷歌,凭借Veo 3视频模型震惊四座。该模型首次让视频实现了音画同步,一举打破了AI视频的“无声尴尬”,划定了行业新标准,也让谷歌回归能完成重大技术突破的头号玩家。
当然,快手最重要的对手仍是字节。去年,可灵“断崖式领先”曾让字节颇为被动,今年其身位也被即梦AI悄悄追上。
2024年11月,字节将视频生成模型Seaweed和PixelDance上线即梦平台,又在今年4月将Seaweed上线到官网。即梦随之更新了3.0、3.0 Pro新版本,并迅速在创作者群体中圈了一波好感。
今年5月中旬,字节对即梦App加大了投放力度,在苹果应用商店排行榜上,即梦App一度蹿升到了国内免费App下载头名,超越了豆包和红果短剧。
“现在各大平台在视频生成风格上都有自己的优势,且不少都开始支持1080P。比如即梦最新版上线后,在听从指令、运镜方面取得了很大提升,甚至说某些方面已经超过了可灵。”六六说。
陈典认为,当前国内厂商在各自擅长的技术领域持续突破,各个模型的性能上限趋于相近,并没有哪家真的强出很多。“虽然即梦起步稍晚,但某些能力已经可以对标可灵。本质上讲,行业竞争格局并非源于技术落差,而是产品推出时机的差异所致。比如,即梦在画面一致性这个关键指标上表现最为突出;海螺则重点提升了生成内容中人物的真实感。”
02、用AI省钱,还是个梦想
在商业模式层面,目前即梦和可灵大同小异,均提供免费版和会员版。即梦免费版生成视频时长包括5秒和10秒两种,生成1秒视频需耗费2个积分。
用户想要获取积分,既可以用1元购买10积分,也可以开通会员。即梦连续包月69元,每月赠送1080积分,可灵连续包月66元,每月赠送660积分。
各家也将重点放在了争夺创作者上。多位创作者向《财经天下》透露,即梦背后的支持和投入力度更大。
以前即梦生成一条AI视频只需要花20多个积分,现在要消耗50多个积分。“但在即梦的超创栏目里发作品,普通作品一个会给888个积分,被选中为优质作品的话会给到3000个积分。不需要太高发布频率,就能积累非常多的积分,根本用不完。”六六说。
相比之下,“可灵发作品去年松一点,日常发一个视频作品给到680个积分。今年在积分激励方面变得非常严格,经常不给通过”。
这种策略差异或与即梦与可灵的发展策略有关。QuestMobile数据显示,截至2025年3月,即梦AI月活用户数达到893万,可灵AI则为180万。相比而言,即梦更倾向于追求用户规模,开拓普通用户。可灵则更看重在专业用户中的渗透,优先追求收入增长。
关注AI行业的投资人张汉对《财经天下》说,“AI视频投资在早期孵化阶段主要看团队,现在是既要看技术,又要看商业化”。
为了提升商业化能力,今年不少视频生成模型都在新一轮模型更新后,来了一轮涨价。目前,AI视频生成下游的付费群体包含to B及to C两端。从各大厂商的探索方向来看,核心的付费群体依然集中在影视、短剧、广告、游戏等专业创作者们。
要想让创作者持续付费,必然需要有相应的收益入账。但对于创作者来说,想要用AI省钱并不容易。
虽然从成本来看,AI生成视频远低于传统视频的制作成本。据量子位智库数据,顶级动画电影(迪士尼、皮克斯等制作)每分钟的制作成本约达200万美元,而AI视频生成的内容成本每分钟约300美元,降本效果明显。
但AI视频生成实用性差、成本不可控的痛点还未解决。AI视频按使用次数付费,但输出效果不够稳定,“并不是说你输出几次就能直接用,想要达到理想效果要不断试,其实成本并不可控。”六六说。
在从事AI影视广告制作的闪灵AI平台创始人李明琪看来,AI视频生成能降低制作成本毋庸置疑。“比如在三维动画领域,制作都是按秒报价。传统三维动画制作一秒中等价位要5000元一秒。如果用AI的话,一分钟的片子能报个10万元就不错了。”
但到底能降低多少成本,性价比与视频类型有强关联。“如果生成科幻大片,制作成本很高,AI视频的性价比就很好。如果用AI来生成文艺片、纪录片,性价比就会极低。”李明琪说。
陈典也有相似的困扰。“现在不管是‘AI小白’的甲方,还是稍微懂一点AI的甲方,都会有这样的认知:觉得用AI生成视频便宜,但不是这样的。”
在他看来,AI视频生成最大的问题是难以解决“一致性”。例如,给定相同的提示词、参考图片或视频输入,模型需要能输出一致的场景和风格。但在实际使用中,AI的输出效果很不稳定。
“比如在办公室、会议室的场景中,AI多次生成应该保持相同的环境和人物特征,才能实现视频片段的自然衔接。但现实中经常出现输入条件完全相同,却生成截然不同内容的情况。”
原因在于,相比静态图像生成,动态视频生成复杂度提升了不止一个量级。静态图像只需要关注空间一致性,视频生成除了空间维度,还要在时间维度上维持连贯性。
陈典遇到的第二个难点是如何生成电影级、具备强交互感的运动镜头。
陈典尝试过将AI工具与传统摄像机方式作对比,分别拍摄跟随一个人的运动画面。用传统镜头拍摄,需要镜头从后面跟随,一直向前走,镜头需要一会儿变成侧跟随,一会儿变成前跟随的推进。
想要用AI生成类似的镜头效果,却是难上加难。“大范围的移动镜头,AI当下是做不到的。所以现在我们看到的所有市面的AI视频,其实都是动态PPT,镜头固定在那儿不动,用AI去生成一些酷炫的效果。”陈典说。
即便在时下火热的短剧行业,AI视频生成也无法解决全部问题。AI短剧导演、杭州极光心智文化科技有限公司创始人郭璞对比传统真人拍摄的方式,给《财经天下》算了一笔账。他介绍,“以1集1分钟的短剧为例,传统拍摄成本包括演员片酬、场地租赁、服装化妆等,算下来整体成本在1万~2万元左右。”
采用AI视频生成技术,则需要考虑两个主要成本维度:人力成本和算力成本。使用可灵或谷歌的Veo 3,生成5秒视频约需4元,10秒视频则需8元。
看似便宜,“但我们需要反复尝试、碰运气,才能生成理想结果。所需的试错成本,1集1分钟的短剧光是算力支出,就要数千元的账号充值,还不包括人力、时间成本投入。”郭璞说。
在郭璞看来,AI短剧市场是否真正通过市场验证,目前仍存在疑问。2023至2024年,虽然业内出现过一些尝试性的作品,比如陈坤带领团队制作的《上海奇境》,以及博纳影业推出的AI生成式连续性叙事科幻短剧《三星堆:未来启示录》,但这些项目更多是作为行业话题引发讨论,在票房收益上表现平平。
因此,尽管AI视频生成关注度很高,但郭璞接触到的投资方普遍更倾向于在可控范围内进行投资试探。“比如投个20万元左右,小步试水即可,不会大规模投入。”
03、技术升级进入瓶颈期
在创作者看来,视频模型的能力限制,关键还在于技术突破遇到了瓶颈。
“现在模型就是卷不动了”,某视频生成领域算法从业人员王蒙对《财经天下》说。去年,各大厂商还在集中精力提升模型生成能力,现在提升遇到明显的瓶颈,“很难说哪家有绝对领先优势”。
视频生成为什么这么难?总体来看,架构局限、算力限制、优质视频数据的稀缺,这“三座大山”共同制约着视频生成技术的发展。尤其是20~30秒视频生成困难,背后是模型的底层架构限制。
视频生成模型与文本生成模型的结构类似,都受到长度限制。视频随着生成的帧数增加,模型会逐渐“遗忘”前面生成的历史帧信息,陷入记忆错乱。
王蒙介绍道,“目前市面上的视频生成模型最多只能生成5~10秒的片段。即使理论上能达到1分钟的模型,实际上我也从未见过真能完整生成长达1分钟的视频。”
另一个关键限制因素是算力。保持视频一致性需要追踪海量信息,既要追踪空间信息,也要记住视频叙事,这需要镜头切换保持逻辑性、故事连贯性,也让视频模型成为各大厂商的“算力黑洞”。
王蒙介绍道,“以1920*1080的分辨率为例,每帧都包含数百万个像素点,每个像素点都附带复杂的物理属性数据。随着时长增加,这些数据会呈现指数级增长。就算把现有计算资源都堆叠起来,也不足以处理如此庞大的数据量”。
第三个制约因素是训练数据不足。视频质量对训练效果影响很大——画质越好的素材,训练效果就越好。但在短视频垃圾信息轰炸下,高质量长视频的获取难度要大得多。
这些都让视频生成模型逐步进入发展平台期,各大厂商纷纷将重心转向应用落地,竞争重点也从追求技术突破,逐渐转变为更注重打磨用户体验,将资源更多地投入到多模态的产品易用性、工作流优化等环节。
以可灵和即梦最新发布的模型产品为例,可灵更新了最新的3.0版本后,开始全力拓展多模态支持能力,不再局限于基础的视频和图片参考输入,而是计划引入更多形式的控制信号。
即梦也采取了类似路线,今年6月,即梦3.0图像生成模型上线后,同样将重点放在了提升AI多模态内容生成上。
目前来看,哪一家大厂将最终成为AI视频“新王”,难以轻言定论。郭璞表示,目前他更看好可灵。但长远来看,即梦倚靠着字节生态,拥有抖音和TikTok两大流量平台,旗下又有红果短剧,内容分发能力强大。
在技术支撑方面,字节的火山引擎大模型也将为即梦提供全方位的能力支持。例如,通过大语言模型可以赋能剧本创作,声音克隆技术将简化配音流程,视频渲染与分镜渲染将进一步提升等,这种生态协同效应都将显著提升内容创作者的效率。
快手则选择重点在创作者生态方面发力。近期,可灵连续举办了多届全国性创作大赛,通过奖金激励和作品征集的方式发掘人才,从参赛选手中筛选出优质创作者重点扶持。
郭璞透露,“近期快手平台投资的几个短剧项目都是S级,比如已经上线的《末日进行时》,以及《黑神话:悟空》团队最新推出的《太阳坠落之时》,就是快手通过‘赛事选拔+资源扶持+平台投放’的模式,激发创作者活力”。
(文中六六、陈典、张汉、王蒙均为化名)
本文来自微信公众号“财经天下WEEKLY”,作者:豆蔻,36氪经授权发布。