6个月融25亿元,他是“字节系”最猛的AI创业者
AI视频生成的热战,比想象中来得更早。
字节跳动的Seedance 2.0在2月爆火,其性能直接改变了AI漫剧产业发展走向。紧随其后,阿里的HappyHorse(欢乐马)开启了API内测。据报道,快手旗下可灵也正以200亿美元估值谋求独立融资,ARR(年度经常性收入)已达到5亿美元。
有巨头集结资源,也有玩家被淘汰出局。今年3月,OpenAI旗下的Sora被关停,原因被归咎于OpenAI需要聚拢资源和注意力。这也不免让文生视频能否跑通商业模式,被打上问号。
不过,AI视频生成公司爱诗科技创始人兼CEO王长虎仍乐观表示,目前视频生成的机会大于挑战。“(如果)每个时代只有(像抖音、快手)一两个产品,只有几十亿用户的产品才有生存空间,那就太枯燥了。”
王长虎曾任字节跳动视觉技术负责人,搭建了字节跳动视觉算法平台和业务中台,并主导了字节视觉大模型从0到1的建设。2023年创业后,王长虎已成为“字节系”出身、上升势头最猛、获得融资最多的创业者之一。
最近6个月,王长虎和爱诗科技拿到了累计25亿元的融资。今年3月,爱诗科技获得3亿美元的C轮融资,由鼎晖香港基金、鼎晖VGC、鼎晖百孚领投,产业投资人中国儒意、三七互娱,以及投资机构亦庄国投、众为资本、国泰君安创新投资等共同参与,估值达到10亿美元。
在模型端和产品端,王长虎和团队几乎每3个月就会进行一次模型升级。2023年10月,爱诗科技推出PixVerse V1,成为全球首个可生成4K视频的视频大模型。到了PixVerse V4版本,爱诗科技已可将视频生成做到5秒之内。目前,PixVerse系列模型已经到了V6版本,AI生成视频不仅实现了音画同步,人物与场景质感也更贴近真实世界。
2025年年底,爱诗科技旗下产品PixVerse的App端和网页端用户规模超过1亿,其ARR已超过4000万美元。
王长虎性格内敛,达晨财智曾主投爱诗科技A轮,并参投B轮,达晨财智合伙人、执行总裁兼首席投资官邬曦告诉《中国企业家》:王长虎没有自己独立的办公室,和100多位同事一起办公。爱诗科技的公司文化也被王长虎概括为“爱诗范儿”——简单直接。汇报等级只有两级,组织扁平,反应速度快。
在接受《中国企业家》的专访中,王长虎提到了10次“进化”,8次“效率”,3次“画问号”。对于一些投资人将爱诗科技比作视频生成领域的“DeepSeek”,王长虎提到,“从创业至今,我们只用了同行十分之几甚至1%的成本资源,就做出了优于或持平于同行的技术能力与产品。”
这种对效率的追求源于王长虎在字节跳动时期的技术积累。邬曦说,王长虎和团队在字节管理过2万块V系列GPU,他们非常懂得如何高效利用有限的资源去迭代产品。
3次“画问号”则主要来自3个方面:抖快之外的机会、大厂离职创业者如何处理与大厂的竞对关系、AI时代to C和to B产品的分野等。同时,王长虎亦有信心和勇气,比如他并不认同,创业者就该“躲避”大厂的炮火射程。
除了V系列模型,爱诗科技还在布局C(面向影视)、E(面向营销)等一系列行业垂类视频生成模型。2026年1月,爱诗科技率先推出了全球首个通用实时世界模型PixVerse R1。2026年4月,又推出了全球首个影视行业大模型PixVerse C1。
一位爱诗科技的业务负责人告诉《中国企业家》:2026年,公司高管内部讨论的重点是:爱诗并不是一个单纯的MaaS公司,也不想单纯地为提供Token而生。模型发展到现在的趋势是,要越来越多地跟行业结合。
这也意味着爱诗科技正在走向两线作战,一方面,奉行“让每个人成为生活的导演”的大C端策略,就像王长虎所说的:“让全球几十亿人,都有机会从一个旁观者变成参与者,从普通的消费者变成创作者。”另一方面,也要深入产业端,正面和字节、快手等巨头公司展开竞争。
最近,爱诗科技宣布了和芒果TV、中国儒意等影视头部公司的合作——中国儒意也是爱诗科技的产业投资人和战略投资人。今年1月,爱诗科技获得了中国儒意1420万美元的战略投资。
以下是王长虎与《中国企业家》的独家对话内容(有删减):
用同行1%的投入,达到100%的效果
《中国企业家》:最近视频生成行业很热闹,各家都在密集迭代,你认为整个行业有没有进入到分化阶段?
王长虎:我认为是更繁荣了。我们(2023年)创业的时候,大模型刚出来,那时候我们就选择All in视频生成。我们为什么能更早看到视频大模型和应用赛道的繁荣?因为视频就是离我们最近的,它本来就应该更繁荣。
这两年,视频生成的进化速度非常快。单看我们公司,过去一年半时间里,我们发布了八九次大模型更新,每两三个月就有新的大模型(版本)诞生。我们认为,视频生成还有很长的爆发期,以及很长的进化空间。
《中国企业家》:模型进化和升级这么快,是不是也意味着它的能力还没有完全稳定下来?
王长虎:如果一件事情很快稳定了,就会陷入到路径收敛,效果稳定,拼资源,更适合大厂竞争。但视频生成的高速发展,也在不断产生更多的可能性,创业公司仍然有很多机会。
《中国企业家》:你怎么看Sora产品体验口碑很好,却留存不佳的问题?
王长虎:我非常赞赏Sora这些勇于探险的先驱者,但创新毕竟是一个失败率更高的事情。所以你们现在看到的所谓我们做出的“模板”,产品用量这么大,同行也都在持续做创新,只是有人可能没跟上节奏。
Sora 2做了两件成功的事情,第一,音画同步生成质量做得很好,模型终于不再拉胯。第二,它在消费平台做了很好,甚至很激进的尝试,不管它最后是否成功,不影响它是一次勇敢的尝试。
尝试失败并不意味着这个方向失败。Sora可能遇到了很多困难,但他们的效率没有我们高,它每帧的成本可能是我们的几十倍甚至更多。
第三,它在人和内容的交互消费端向社交做了探索,用AI视频生成尝试社交,这是非常有价值的。
《中国企业家》:Sora是不是有点太超前了?它去探索的AI视频社交,或者社区类产品,是不是行业还没有准备好?
王长虎:我们不能用几个词去简单归因。我们认为,在新时代,消费和创作边界越来越模糊,未来将会是什么样的场景?每个人都可以消费,每个人都可以创作。Sora 2朝着这个目标走出了一步,但最终什么样的产品能够获得用户的芳心,还需要不断打磨。
《中国企业家》:抖音快手的一个重要贡献是,最大程度地给了普通人表达的机会。你认为AI生成视频这波浪潮能带给他们什么?
王长虎:我也经历过抖音那个波澜壮阔的时代,智能手机和4G、5G的普及,流量成本越来越低,让抖音和快手造就了一个现象,每个人都可以轻而易举地在短视频平台上去刷新视频。
但这是不是意味着每个人都能成为创作者?这是我画个问号的。全球几十亿人在玩视频,但真正去拍摄、上传和分享的人数占比可能小于10%,还是极小的比例。所以,我们要让那些没有这种体验的90%以上的几十亿用户,通过我们的产品把他们的想象力变成视频,去创作,去传播,去分享,去交流,去互动。
《中国企业家》:PixVerse爆火离不开内容模板,模板为什么这么重要?
王长虎:我们上线模板大概在2024年10月,这是一个非常独特的节点。之前,都是创作者有明确的意图,比如创作一个广告片或者短预告片,然后通过调用模型生成片段。那时候遇到的困难是什么?生成的成功率非常低,生成10个才能挑到1个精华。用户生成一次,发现生成不好,就不会再用第二次了。
于是我们就希望提供更低门槛的创作工具,所以(模板)一下子把生成的成功率从10%、20%拉到接近100%。
第二点,降低用户的生成门槛,甚至不需要输提示词,可以直接上传自己的一张照片,选择模板就可以了,可以真正让几十亿普通人玩起来,用起来。所以,我们认为它是视频生成的GPT时刻。
这也让我们做出了全球最好的视频生成能力,并且推出了普通用户最喜爱的、门槛最低的生成产品,达到了破圈的效果。
《中国企业家》:你认为模板只是一个过渡还是终局产品形态?
王长虎:它只是我们产品里的一个feature(特色)而已。除了模板,还有我们的首尾帧能力,你上传两张图片,就能生成一个从A图片变到B图片的动态视频。还有我们的Agent能力,一些用户希望能生成更长的内容,可编辑性更强的故事,我们就开发了一个Agent,可以调用不同的模板能力,调用不同的基础视频生产能力,自动生成更长、冲击力更大的视频。
《中国企业家》:你们有一个很重要的技术突破是,2025年发布的V5上实现了音画同步。这会不会让单个视频的成本变得很高,你们怎么去控制成本?
王长虎:我们是一家创业公司,但在模型能力上,我们一直以来是全球第一梯队。我们的产品位列“全球前25大AI产品”,也是视频生成领域里最早破千万用户的。
这意味着我们的效率是极高的,这不是做音画同步生成开始的。我们从一开始就考虑,要用相比同行1/10甚至1%的成本资源,做出更好的能力和产品。
《中国企业家》:你们在技术上具体是怎么实现的?
王长虎:最大的成本是认知带来的成本,即你的判断力。我举个例子,如果做一件复杂的事情,比如大模型,你要判断非常多的节点,任何一个节点都是未知的。
当我要去攻克5个难题,每个难题都是未知的。你有5个解决方案,你要决定选择哪一个和不选择哪一个,它就会产生巨大的成本差。最优秀的团队,总能选择正确的道路。相反,另外一支团队有可能每次都选择错误。你会发现,最好的团队和最差的团队里面的效率差是多少?是5的5次方。
在非技术侧,它意味着更扁平的决策链路。有判断力的人和有资源决策的人,层级要尽可能少,这可以极大地提升团队的组织效率。我们公司践行“简单直接”“爱诗范儿”的文化,有助于我们在非技术层面上做得更快更好。
在技术侧,DeepSeek出来之后,熟悉我们的投资人或者企业,都把我们看成是“视频生成领域的DeepSeek”。DeepSeek的成功不仅在于开源,而且它用别人1/10的成本做出来了。反过来看,我们的成本压力可能比他们更大,在文生视频领域做到了这一点,也要依靠非常多的因素。
我们在数据、模型、DiT(Diffusion Transformer)架构层面,有着天然的优势。
第一,数据层面,如何能找到那些能帮你进化、提升模型性能的最精华数据。这背后做得好或不好,都会体现到成本、效率、训练时间上。
第二,模型侧也同样。比如AI建模时,该用什么方式去建模,如何提升视频质量,同时让模型训练和推理的过程成本尽可能低,做到极致。实际上,在模型训练过程中,如何确保它每次都训练成功,而不是训完之后,发现结果不好,我们再去训练。这也都会涉及到我们整个的投入成本。
第三,在模型架构层面,如何既有效又速度快?推理层面如何更好地去调动资源,因为我们是全球的用户,如何“削峰填谷”?用有限资源去保障推理能力。这是一个复合型的工作,它既分非技术层面,又分技术层面。技术层面的话涉及到数据、模型和工程,我们每一点都要做到极致,你才有机会走到现在。
《中国企业家》:目前,大模型公司都在改进自己的注意力机制。我注意到,你们在V5版本曾提到过“自适应Attention结构”,Full Attention(全注意力)和Sparse Attention(稀疏注意力),你们为什么选择将它们结合起来使用?
王长虎:选择两种结合,第一,让效果不受到任何影响。第二,我们要以极高的效率完成建模,所以用不同的三线结构组合方式做这件事情。模型不仅要处理视觉信息,还需融合三维空间之外的音频维度,因此需要全新的结构进化。
《中国企业家》:声音加入其中,是不是技术难度会更高一些。
王长虎:一定是更难的,因为模型感知的世界多了一个维度。我们整体的数据量希望能做到可控,虽然数据量一定会变大,但也一定要保证它是可控的。如何在有限样本的前提下,尽可能提炼出本质规律,强化对世界、音画同时同步的理解,需要模型扮演更重要的角色。
不要回避与大公司竞争
《中国企业家》:用户在“拍我AI”上生成了视频,下一步一定会去做分享或者分发。在自建生态上,你们是如何考虑的?
王长虎:第一,我们鼓励用户在各个平台去发布用我们的产品创作的视频;第二,我们也鼓励用户在我们平台上发布有价值的视频,建立个人品牌。用户也能参考他人发布的内容,做一键二创,增强归属感。
《中国企业家》:做用户运营,是不是比做模型和技术更难?
王长虎:在我们看来,模型和产品居于一个维度,用户会通过非常多的方式来告诉我们,技术产品应该往哪个方向发展,它是一个协同的过程。我们会根据对用户和技术发展的判断,去超前进化产品,这是必须做的事情。
在未来,视频生成的壁垒是复合型的,就是数据、产品、用户之间的协同。
来源:AI生成
《中国企业家》:大厂纷纷上线视频产品,你们如何看待竞争压力?有从字节离职创业的人告诉我们,创业要尽可能选在大公司的射程之外,但你们选的赛道一直是在大厂的核心地带。
王长虎:从创业第一天开始,我们就有这样的压力,我们一直在参与竞争。AI的新时代,也一定会有最优秀创业公司的机会。
是否该在射程内,不能简单归因。我们创业的时候,大家都没有看到这个方向,当时AI生成视频是个非共识的事情,但我们很快做起来了。现在, 我们的用户量和产品规模,包括模型能力,都是可以跟大厂掰手腕的。我们的效率也是极高的,这是我们的优势。
所以(创业者)要不要做,是不是大厂只要做了同一个东西,你就一定要拐弯,马上把产品抛弃,做其他事情,要画个问号。
我们一直在做自己believe的事情,未来空间非常广阔。我们想做的事情可能会在某个阶段,和大厂的一些认知重叠,但更多的阶段应该是不同的。
《中国企业家》:你们目前做的还是to C,抖音快手其实做到了几千万甚至上亿的DAU,才彻底拉开了跟其他产品的差距。视频生成领域是不是用户量也要达到这个规模,才能拉开优势?
王长虎:我们不能简单做这样的结论。如果to C产品几亿规模才有优势,意味着大多数产品都会被打倒,实际上很多公司生存得非常好。
这是一个新的时代,我们不能简单分类to C和to B,专业创作者和普通用户的界限越来越模糊。上一个时代的经验是否适用于这个时代,一定是画个问号的。我们希望打破这种固有的认知。
我认为我们有能力在相应的用户规模上把产品做得更好,1亿用户不是天花板,但我们也不认为,只有做到几十亿用户,我们才能生存。AI信息时代到来,产品侧一定是百花齐放的。
如果每个时代只有一两个产品,只有几十亿用户的产品才有生存空间,那这个时代太枯燥了。
《中国企业家》:在AI时代,人和内容的关系是怎么样的?
王长虎:我们极致去推进模型能力的进化,让用户可以轻而易举地完成自己的梦想。我们希望模型能承载更多的东西,让更广泛的用户群体做出过去只有非常专业的创作者才能做出的内容。这是一个更大的群体,更值得我们去努力。
《中国企业家》:你认为AI时代的抖音,又会是什么样子?
王长虎:未来的抖音,一定不是把抖音的内容替换成AI,这样多枯燥。我觉得,每个时代都会有新的人和内容交互方式,会出现新的硬件。
我们相信新的时代一定有新的国民产品,我们是往这个方向去努力的。但同时,新的产品需要通过模型、产品、用户飞轮转起来,在这个过程中,要不断试错,去找到答案。
本文来自微信公众号“中国企业家杂志”(ID:iceo-com-cn),作者:闫俊文,编辑:李原 何伊凡,36氪经授权发布。















