AI上春晚:一场十四亿人的验收

晓曦·2026年02月17日 19:21
AI模型的 “最牛甲方”教会了我们什么?

文|陆莫斯

编辑|王二

如果还有“春晚最喜爱的节目评选”,2026年春晚你投哪个?

“春晚最夯”

“MVP”

“每一帧都是绝美”

这是2026春晚《贺花神》节目的网友评论。

当白居易舟行水上,吟出“犹在水中央”;

当绘画大家徐渭泼墨成花;

当王昭君凝眉转身回望中原,一拨琵琶;

我的中国文化DNA动了。

直到节目结束,主持人念出“火山引擎用豆包大模型图像和视频生成能力打造十二花神视效”,很多观众才意识到,AI的能力已经走到了这一步。

这也是有史以来AI含量和科技含量最大的一届央视春晚。

这首先是一场给十几亿人的AI视觉奇观。

不止有美轮美奂《贺花神》,在歌舞节目《梦底》中,当演员刘浩存在舞台上伸展舞姿,五个逼真的数字分身,也在舞台背景上演绎着一番悲欢离合。镜头移动、现场灯光变化时,分身的视角和光影也会实时同步。

吸引了很多人目光的,还有蔡明的机器人小品:机器人能在后空翻之余,还能怼人逗闷子——“如果真孙子和机器人孙子掉河里,奶奶先救谁?”“机器人:我俩一起掉河里,你就被电死了。”——在豆包刚在“科技春晚”怼过罗永浩之后,这只是在更多人面前的小露一手。

当主持人数次拿起手机,对屏幕前的观众喊话:让大家打开豆包App,生成一句马年的祝福、让豆包根据自己的形象生成拜年头像……

这些时刻都颇具意味。

站在2026年的起点,谈论AGI的终极想象已经陷入流俗——大部分的人类想象,都没有超出过《Her》或者《钢铁侠》里全知全能的AI助手。

相较之下,距离我们更近的现实,正在剧烈地发生变化。

在除夕当天,豆包AI互动总数达19亿,“豆包过年”活动,就已经帮助用户生成超过5000万张新春主题头像、生成超过1亿条新春祝福。除夕当天,火山引擎豆包大模型的峰值TPM(每分钟token数)正是在春晚主持人宣布用豆包进行第二轮互动之的这一分钟内,豆包大模型推理吞吐量达到633亿tokens。

AI界的“技术奇观”仍在继续。从去年的Google的Nano Banana,到近期的“小龙虾”Clawdbot、字节视频生成模型Seedance 2.0,都在共同趋向一条主线:每一次技术爆发后,传递到C端用户中的速度在迅速加快。

拥有资金实力的大厂们用红包、春晚、AI点奶茶等大战,加速了这些“奇观”的爆发。这让2026年的春节大战,已经足以被记录为一个历史性时刻。

这个时刻有两个维度:一个是技术边界的突破——AI第一次在国民舞台上,完成了此前不可能的创作;另一个时刻在于使用门槛的迅速降低——观众们第一次发现,AI不再是遥远的技术竞赛,而是在自己身边,能“帮得上忙”的助手。

AI视效怎么才能满足顶级甲方?

这个“帮得上忙”的时刻,先发生在了春晚导演组的准备过程中。

2026年春晚前夕,看到水墨奔马从静态画卷中跃然而出,从头到尾保持一致,依然威风凛凛时,火山引擎工程师小林终于放下心来。

在导演组确认效果达标前,没有人能预料到效果如此之好——包括春晚导演组和火山引擎自己。

△来源:歌曲《驭风歌》,背景动画用Seedance 2.0生成

一个多月前,春晚导演组把一份节目需求递给了火山引擎团队,要求看似简单:一张徐悲鸿风格的水墨画,画上几匹风格各异的马,能让马跑起来就行,哪怕原地踏步也可以。

大模型的边界在哪里,能不能实现?至少,在接到春晚导演组的节目要求时,火山引擎工程师小林并没有答案。“非常忐忑。”他对36氪回忆道。

当时,字节正忙于训练新一代的旗舰生成模型Seedance 2.0,进度只有约30%左右。

AI视频生成模型特别适合春晚这种节奏快、变化多、不断需要迭代的项目。在火山引擎团队接手之前,春晚导演组已经尝试了市面上几乎所有主流的视频生成模型,但最后发现,在水墨画这个场景上,都不如人意。

水墨风格的影像语料本来就极度稀缺,大多数国外模型根本不理解什么是水墨画,又因为水墨画以写意为主,而非写实。在没有分镜脚本、动态参考时,很难有人说清“水墨画动起来应该是什么样子”。

但尝试之后,团队发现,导演组想要实现的效果——风格迁移、参考生成、细粒度动态控制——恰好与他们正在训练的Seedance 2.0的技术方向非常契合。

春晚导演组就这样成了Seedance 2.0的全球第一位顶级用户。

顶级甲方的好处在于,甲方们的艺术素养是一流的。

一开始,骏马身上用写意手法画的纹路和毛发,奔跑时身上的纹路该怎么动?火山引擎的理科生团队想象不出来,只能请导演组的老师手绘出脑海中下一帧的版本,再反复用AI跑视频,去逼近那个“对”的感觉。

△来源:歌曲《驭风歌》

即便模型能生成马的动态视频,又会遇上更棘手的一致性问题:画上有六匹马,每匹颜色、长相、气质都不同。哪怕能够生成马奔跑起来的视频。同时,六匹马的样子很难保持平衡,甚至数量也会在下一帧发生变化。

在这些基础上,还要确保画面也足够精致逼真。否则,在春晚舞台背后的真HDR和8k超高清屏幕上,面对着十几亿观众,最细小的瑕疵和失误都难以被容忍。

火山引擎的解决办法是:遵循“先可用后满意”的迭代逻辑,先生成关键帧,再基于关键帧生成动态视频,而非直接用文字描述生成。

“我们没有为春晚单独微调模型,”字节相关团队表示。团队对模型在每个训练阶段的能力边界有着清晰认知——知道它能做什么、不能做什么。随着训练进度推进,他们不断在能力边界内,把模型能力用到极限。

在春晚项目的推进过程中,来自导演组的反馈也反哺了模型训练环节。“最高峰的时候,我们每周可以迭代数十到超过一百个视频版本,这是传统影视团队不可能达到的频率。”他表示。

但仅仅过了一个月,火山引擎团队就拿出了惊人的结果:将一张静态水墨画,变成了一段分钟级、包含分散、聚合、特写、交互等复杂分镜的动态影像。每一匹马不仅跑了起来,都保持着自己的性格和特质,六匹马会在画面中分散、聚合、互动,最后回到一张完整的画面里。

如今的Seedance 2.0模型最高仅能支持到720P 24 FPS的直出内容,与春晚的画质要求有差距。为此,火山引擎团队甚至还建立了一套画质精修体系——这套体系会先分析画面里的人、运动、细节纹理等等要素,用多种算法组合,把画质规格提升到春晚可播出的标准。

另一个有意思的现象是,一开始,在导演组还不清楚模型能力时,需要模型团队不断先提出方案,推到创作者面前。

但当模型可用性提升到80%-90%以上,创作主导权发生了逆转——导演组开始随心所欲地提出创意要求,模型能够稳定响应各种精细化的艺术控制指令,分镜的设计权又回到了导演手中。

中国AI的“黑神话时刻”是怎么发生的?

不论是在《贺花神》中起舞、吟诗的十二个花神、《驭风歌》节目里奔腾的骏马,还是豆包App的春节AI互动,都离不开一个关键词:字节视频生成模型Seedance 2.0。

Seedance 2.0在临近春节前上线,引起的全球轰动仍在持续,甚至被游戏科学创始人冯骥称为“中国AI圈的黑神话时刻”。

为什么它能够有如此大的影响力?

这是因为,视频生成模型第一次完成了从生成一段画面,到完成一个完整作品的跨越。

以往的视频生成模型,更多是生成批量零碎画面的工具。创作者本质上是在“抽卡”——先要画好分镜表,根据每个分镜的要求(近景、中景、远景,画面内容等)。生成的10个视频中,可能只有1-2个能用,大量的时间还要耗费后期制作上,比如让生成的视频里人物、背景保持一致。

在不少用例中,我们都能够看到,仅是简单的一段话,描写出故事情节、画面风格,Seedance 2.0就直接能够生成一段15-30秒、带镜头调度、保持角色一致、音画同步的视频,可用率高达八成以上。

重点在于,Seedance生成的视频,镜头间的切换是带有“导演思想”的,这根本性地改变了创作体验,真正做到了让创作者指挥AI拍电影,模型完成相当大部分的“思考”工作。

要让模型懂得真正理解世界,这需要模型全方位的能力都达到基准线。

字节相关团队用了一个比喻:基础大模型的训练,木桶效应非常显著——就像是,面对一个60分的考生,很难挖掘亮点;但当考生到了90分,所有闪光点才会被看见。Seedance 2.0 的突破,不是某个单一能力的跃升,而是过去影响可用性的短板被系统性地解决后,用户体验发生了质变。

相比上一代模型,Seedance2.0进步的一个重要原因是训练标准。在2.0的训练过程中,Seedance团队建立了一套新的Benchmark(评测体系):第一层保证画面中的实体正确、运动不崩坏;第二层才追求更高的视觉表现力和遵循能力。

换句话说,在模型的能力演进曲线完全没有收敛时,多模态模型的进步,很大程度上还需要依赖基础模型能力的提升。

在明白这个道理前,字节也交过一些学费。

36氪了解到,从2023年开始做AI时,字节并没有更多追求在更大的参数上训练模型,而是先训练一个参数较小的基础模型,推出C端应用,根据用户反馈来快速迭代产品,当时,基础模型的规模更多是“够用就好”。

所以,尽管豆包依靠字节的抖音,语音、图像等多模态功能做得非常好,但一开始总被用户嫌弃“有点傻”,限制了豆包的能力泛化到更多专业场景。

2025年的DeepSeek时刻之后,国内大厂都结结实实在RL(强化学习)上卷了一整年。字节不仅加大了基础模型的投入,并且让模型团队和AI应用一定程度解耦——模型团队追求模型的智能上限,产品团队则继续围绕豆包App为主的产品进行高速迭代,从用户的使用场景中提取需求,反哺给模型团队。

Seedance 2.0的上一个版本1.5 pro,就验证了这种路线的可行性。当时,模型其实已经可以做到声画同步,比如生成一个室内的画面,声音会对应地变得更集中;户外的画面则匹配一个更悠远、空旷的声音。

所以,当基础模型Seed 2.0的能力有大幅提升——Seedance 2.0也变得更聪明了。相较前代版本,2.0拥有了自己的“导演意图”,生成的视频分镜是符合故事叙述逻辑的,这满足了更多专业创作者的需求。

更大规模的爆发来自工程上的降本。保持角色一致、到达更高可用度,让Seedance 2.0在应用侧迈了一大步,如果抽卡频率能降至25%(即2次),成本可降至1.4元/秒,降幅高达68%。

这让大众用户更容易能创作出有品味的AI视频。于是,抖音、B站、小红书等平台迅速出现了大量地整活类二创,进一步促进了全球范围内的破圈。

怎么喊十几亿人来玩AI

2015年的春晚,当央视春晚主持人说出“拿起手机摇一摇”时,中国的移动互联网历史被改写了。那一夜,微信用户摇了110亿次手机,2亿人在抢红包的过程中绑定了银行卡。

马云后来把这次突袭称为“珍珠港事件”——他用了8年时间积累的支付宝用户,被微信用一个晚上追平了。

不过,微信红包的成功有一个前提:移动支付技术在2015年时已经成熟,用户需要的只是一个“为什么要用”的理由。

但如今的AI,可能比大家想象的阶段还要更早。

除夕夜,十几亿人在同时用AI生成红包封面和祝福语时,看似简单的操作背后,就是一场艰巨的基建保障战争。

AI的基建还远未到成熟之时。一位火山引擎人士对36氪算了一笔账:传统的抢红包基本只用CPU算力,一次请求的算力消耗在十万分之一Tops以内。通过大模型生成祝福语和祝福图片,单次请求需要累计消耗约10 Tops算力——对于单个请求而言,算力消耗差有百万倍之多。

那么,字节为什么要在春晚场景中,用百万倍的算力猛推多模态红包、祝福语;阿里千问为什么要狂撒补贴,让AI帮人类点奶茶?

1998年的《商业周刊》采访中,苹果创始人乔布斯曾说:“人们不知道他们想要什么,直到你把它摆在他们面前。”

在ChatGPT横空出世之后的头三年,无数AI应用创业者都在做类似的事情:去猜测用户的需求,造了锤子找钉子。

但谁真正找到了答案?Agent时代来临后,Anthropic凭借押注Coding路线,用Claude Code一举反攻企业侧市场,几乎有反超OpenAI的势头;DeepSeek则极致的工程降本和展示思考链的产品设计,向全球展示了“AI会思考”的神奇时刻,给中国的大厂打了个样。

不同在于,美国会花更大力气,专注在大模型本身,比如继续堆巨量算力以迭代模型;但在中国,绝大多数互联网巨头都是凭借消费者应用崛起,竞争更为激烈。

在国内,技术突破和抢占C端场景的用户心智,只能是双线并行。

除了技术处于发展早期之外,技术的迭代速度,也比当年的支付大战时更快——大厂们现在面对的问题可以说更加艰巨,无论是市场教育成本还是基建。

但好处在于,如果C端应用保持快速增长的态势,和底层的基础设施会一起成长。

比如,高速快速成长的火山引擎已经成为字节的AI能力底座和出口,正在变得越来也健壮。截至2025年12月,豆包大模型日均token使用量就突破50万亿,较去年同期增长超过10倍,火山2025年的收入也已经快速增长,突破200亿元。

C端应用场景和B端服务互补式地增长,已经成为一种常态。比如,在市场心智还没还固定前,不少人也会因为字节在豆包App、即梦和其他AI应用的良好体验,选择采购火山的AI云服务;相应地,火山也被倒逼着,在一种极限状态下快速迭代基础设施。

无论是豆包让十几亿人第一次体验多模态能力,还是阿里千问AI请奶茶,本质上理念相同:在自家模型拥有SOTA能力时,迅速让更多的C端用户,在合适的时机,用上AI能力。

这是一场资金、技术、应用场景缺一不可的综合战役。

换言之,模型领先只是这场战役的前提。未来,决定一家企业成败的关键,是技术范式发生改变之时,谁能将断代领先的模型能力,迅速转化为用户可以感知到的产品功能——让不用AI的人第一次体验多模态、办事能力,这已经决定下一个时代生态位、建立护城河的关键问题。

+1
21

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

四家公司亮相,翻跟头和捡玻璃哪个难度更大?

3小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业