智象未来梅涛:AI生成视频正从“形似”向“神似”迈进 | 对话商界NO.9

36kr王顺·2025年07月02日 13:56
考虑到技术的快速发展以及开源社区的繁荣,多模态生成AI的进化可能会加速。
智象未来
种子轮北京市2023-03
通用大模型开发商
我要联系

文 | 王顺

编辑 | 竹笛

相较于近年来火热的大语言模型,AI生成视频的发展相对缓慢,直到Sora的出现。

2024年2月,OpenAI发布文生视频模型Sora,该模型能生成长达1分钟的高质量、高一致性视频,突破了此前AI视频生成技术进展缓慢的局面。更为重要的是,AI生成视频不再是简单的静态帧组合,而是展现了对物理规则的动态模拟能力。

在技术不断迭代的同时,众多行业新锐力量已入局掘金,并悄然构建起分层竞争格局,不同技术路线如基于DiT架构、自回归模型等竞争正在加速洗牌行业。其中,位于安徽的智象未来(合肥)信息技术有限公司(简称“智象未来”)便是其中的参与者。

2025年4月,智象未来自主研发的HiDream-I1图像生成大模型在Artificial Analysis图像竞技场的评测中表现优异,成为首个登顶该榜单的中国自研生成式AI模型。此外,在DPG-Bench、GenEval和HPSv2.1等主流评测中,HiDream-I1表现突出,分别在复杂提示理解、对象理解与执行能力、图像美感和语义一致性等方面达到了不错的水准。

同年6月,智象未来推出了vivago2.0产品,其集图片生成、视频生成、数字人、玩法特效、创意社区及话题互动于一体,引发市场关注及讨论。

虽然智象未来的HiDream-I1取得了令人瞩目的成绩,但加拿大工程院外籍院士、智象未来创始人兼首席执行官梅涛博士对AI生成视频的发展一直保持着清醒认识。

他告诉36氪,DiT(编辑注:Diffusion Transformer)架构利用Transformer的强大能力处理视频数据,让AI模型能高效建模时空关系并灵活生成不同分辨率的视频,这是一个重要的进步。然而,对整个生成式AI领域而言,复杂物理现象的逼真还原仍是悬而未决的难题——飞溅的水珠轨迹、物体碰撞的力学反馈等人类直觉可感的动态细节,目前仍处于“形似而神不似”的探索阶段,在相关场景中仍常出现视觉违和感。

尽管物理世界的精准模拟仍需时日攻克,但梅涛亦观察到,目前行业正处于单镜头生成阶段向多镜头连贯叙事阶段的跃迁阶段。考虑到技术的快速发展以及开源社区的繁荣,多模态生成AI的进化可能会加速。

加拿大工程院外籍院士、智象未来创始人兼首席执行官梅涛博士和36氪安徽总经理、氪基金业务董事沈秀田

那么,3D内容生成为何比2D图像生成更难?AI生成视频技术可以赋能哪些行业?哪种付费模式更好些?近日,36氪安徽总经理、氪基金业务董事沈秀田与加拿大工程院外籍院士、智象未来创始人兼首席执行官梅涛博士聊了聊AI生成视频,就其技术难点、商业模式等做了深入交流。以下为对话精编:

让生成内容更符合物理规律

36氪:您当初为何选择多模态AI这个赛道?

梅涛:主要基于三方面考虑。从技术层面看,我认为实现通用人工智能(AGI)或超级智能,必须与动态世界交互,仅靠语言模型(LLM)是不够的,因为人类感知本质是多模态的。多模态是通向AGI的必经之路。

从商业前景看,多模态应用落地更快。当前全球AIGC收入的50%-60%来自图片和视频相关应用,高于纯文本模型。2023年我们创业决策时,像Midjourney这样的多模态公司已通过SaaS工具证明了强大的商业化能力,清晰的验证了产品的市场契合度。

从个人角度说,创业需结合自身所长。我并非NLP专家,而是计算机视觉(CV)和多模态领域的专家。2023年那波AI创业潮的核心逻辑是技术赋能产品、产品颠覆模式,我自然选择发挥专业优势的方向。

36氪:3D内容生成为何比2D图像生成更难?智象未来是如何解决的?

梅涛:我们目前没有把业务重点放在3D上,我们做的是视频。这要看你怎么去理解,文字是一维的,图片是二维的,视频相当于在二维基础上加了个时间轴,你可以认为它是2.5D,但它不是完整的3D。真正的3D就像动画片里那种有景深的完整效果。

真正要做3D内容,要求场景中的每个物体,比如你、我、沙发等都必须是一个可分离的独立个体,并且这些独立物体之间要能按照真实的物理规律进行交互,比如碰撞或者遮挡。

但我们现在做的视频生成是2.5D的,处理方式不是把每个物体单独拿出来构建。它采用的是逐帧生成图像,或者把整个视频视为一个时空立方体来进行处理。因此,虽然生成的视频影像看上去像是3D场景,但它并未对物体进行独立建模和分离,也不模拟它们之间的物理交互,所以本质上并非我们通常所说的、具有空间结构和物理基础的真3D。

36氪:我们注意到,智象未来的HiDream-I1在权威多模态评测中展现出与GPT-4o相当的核心能力,哪些技术细节帮助缩小了差距?在长文本理解、多帧连贯性生成等场景下,下一步的优化方向是什么?

梅涛:主要基于两点,一是Sparse DiT架构能够让模型在生成效果和运行速度之间找到了一个非常好的平衡点;二是对抗蒸馏技术在增加推理效率的同时极大地增强了画面的细节和美感。

我们下一步优化方向还是去更好地理解物理世界规律,让生成内容更好得去符合物理规律。

36氪:AI生成视频在物理规律模拟上存在局限性吗?

梅涛:目前是存在的。当前AI视频生成技术能通过数据学习模仿物理现象的“表象”使其“看上去合理”,但尚未达到真正理解并精准模拟复杂物理规律的本质水平。​

以游泳场景为例,AI生成视频中水珠应随手臂运动遵循物理规律,但目前难以精准实现。

36氪:HiDream-I1是如何平衡生成内容的“创造性”与“可控性”?目前哪些技术手段能更精准约束生成结果?

梅涛:HiDream-I1在预训练阶段保证了模型的可控性,例如长文本和生成内容的语义相关性,Sparse DiT架构中多个专家模型MoE也增强了模型的可控性。而对抗蒸馏技术则在推理阶段增强了模型生成内容的创造性。此外技术上还会引入强化学习的方式来进一步保证生成内容可控性、创造性的平衡。

36氪:如果我们能够实现您前面说的3D效果,需要迈过哪些门槛?

梅涛:视频本身比较难做。当前模型缺乏对物理规律的理解,主要做的是根据数据匹配视频和文字,从而复现内容。实现这个目标需要克服几个关键挑战。

首先是模型要强。2023年行业的架构能力是比较有限的,2024年DiT模型大大提升了视频与图文对应能力,2025年智象未来融合了自回归模型和DiT模型来突破瓶颈,提高潜力、速度和理解力。

其次是架构未统一。相比成熟的大语言模型,比如GPT,视觉和多模态领域尚缺乏一个能“通吃”各种任务的统一架构。这种通用架构的缺失是前进的一大障碍。

最后是数据瓶颈。训练需要大量视频加精细文字描述,详细说明内容、动作、细节等信息,这种高质量配对数据极其稀缺,是当前最关键的制约因素。

36氪:我们当前处于AI视频生成能力的哪个发展阶段?

梅涛:我们当前处于L2阶段,主要是单镜头制作。我们规划了五个阶段:L1阶段即基础动画制作已经较成熟;L2目标是将单镜头做到位。但目前L2尚未完全达成,问题包括单镜头可控性不足、稳定性不够,以及物理模拟容易出错。

目前,我们正从L2向L3推进。L3的核心目标是实现多镜头制作,并确保跨镜头的IP一致性、画面风格的一致性。L4旨在将多镜头串联成连贯情节,比如制作一部1到2分钟短剧。L5则是输入剧本后自动生成完整影视内容,是无需分镜的,但是L5实现难度大、周期长。

目前,我们最现实的目标是完成从L2到L3的过渡。

36氪:从L2到L3阶段,需要几年时间?

梅涛:可能只要1到2年时间,现在技术迭代快,开源社区也非常繁荣,也许某个人就解决了关键问题,我们就去拥抱。

目前人类创造力是AI无法取代的

36氪:在高度依赖创造力的视觉/影视行业,如何平衡AI生成模型的“基础能力”与人类“核心创造力”之间的关系?

梅涛:目前人类的创造力是AI无法取代的。但我们的目标是,让人类未来能把工作精力更多地集中在创意构思(0到1)上,而不是消耗在那些执行环节,比如请演员、布置一个场景、花好几天时间只为拍摄一个镜头上。​

36氪:可以赋能哪些用户?

梅涛:专业用户会用智象未来的工具来做创意的概念图设计。通过快速生成效果图,他们可以迅速判断创意的好坏,从而加速创意的筛选和深化过程,但AI取代不了他们原始的创意构思。

一旦你的创意构思完成了,普通用户就能使用工具,加速从1到100的工业化量产阶段。在这个阶段,可以大规模地降低成本并显著提高生产效率,例如快速生成大量不同场景、风格或适配需求的内容成品。

36氪:在由AI生成的视觉内容中,如何有效传递出具有人文温度的感染力,并与机器本身的“生成特性”相结合?

梅涛:我认为关键有两点。创意是根本,作品必须源于真正打动人心的好创意,如果创意本身不行,那就像“朽木雕不出花”一样,再好的工具也难有作为。

此外就是工具需进步,当前AI工具在视频生成上还面临几个关键挑战,叙事性不足,无法保证视频片段间场景、人物、故事情感的连续性;可控性差,难以实现导演要求的精细控制,比如精确指导演员表情,像悲伤不流泪、含泪不滑落、情绪转变等;稳定性欠缺,难以稳定地一次生成高质量结果,常常需要反复尝试。

目前,AI工具还没能完全解决这三个问题,尤其叙事性和可控性的难度可能更大。

36氪:不同行业对AIGC的需求差异极大(如金融重合规、教育重交互、医疗重精准),如何通过技术架构设计实现“通用能力+行业插件”的灵活适配?

梅涛:我觉得得从两方面看模型发展。

一是“横向”提升模型通用性。当前模型还未达到性能上限,因此我们选择在模型架构层面进行0到1级的突破性创新。一个更强大、方法更先进的底层架构,能为模型打下更坚实的通用基础。模型的基础通用能力越强,其潜在的可解决问题范围就越广。

二是解决“最后一公里”问题。光靠横向的通用模型,很难解决用户实际场景里的具体需求。所以需要垂类数据,比如金融、医疗、教育等行业的数据,我们需要用这些领域的高质量数据去“喂”模型、做精调,慢慢去解决行业的问题。

大模型像个湖,垂类模型像湖里的船。大模型能力越强,湖的水位就越高,船就能浮得更高、负载更大。但水位不可能无限涨,每个行业的know-how都很深,湖面不可能漫过警戒线。所以,要真正解决“最后一公里”的问题,需要综合结合工作流、行业Agent 、行业know-how,必要时候,还得人机协作。

36氪:从智象未来的商业化经验来看,当前多模态AI的付费模式(API调用、订阅制、按需付费)中,哪种收益更好一些?

梅涛:目前行业还处于比较早期的阶段。智象未来是创业的第三年,也经历了不同的商业模式。2023年的模式是MaaS,卖模型和API,类似于云计算的PaaS模式。2024年的模式是SaaS,主要卖工具,让用户在智象未来的平台上使用工具生产内容。

现在我们升级了模式,就是RaaS,即交付结果、以用户价值为导向的商业模式,包括工具、内容素材、限额视频制作/投放只收少量的基础费用,主要是赚取客户的GMV提升后的分佣。这样客户价值也比较清晰,基本是零风险投入,增量收益共享。

36氪:在生态中,智象未来更倾向于做“底层技术提供方”还是“端到端解决方案商”?

梅涛:我们在生态中的定位源于“1+3”模式,就是一个垂类的基座模型 + 三条轻量化产品线。但作为初创公司,我们认识到完全自主开发特别通用的基座模型是不现实的,毕竟拿到的投资有限,我们通常只有“一发炮弹”的机会。

因此,我们的策略是,做垂类基座模型,聚焦于垂直领域,而非完全通用,并采用类似DeepSeek的低成本、高效率路径。这符合我们创业公司的定位和能力,也考虑了资源限制。

这个垂直领域的基座模型,主要服务于我们自身的产品线。同时,模型中的部分能力也可开放给生态伙伴使用,这使其具备一定的通用性。

因此,我们的策略是,做基座模型,但会聚焦于垂直领域,而非完全通用,并采用类似DiT的低成本、高效率路径。这符合我们创业公司的定位和能力,也考虑了资源限制。

这个垂直领域的基座模型,主要服务于我们自身的产品线。同时,模型中的部分能力也可开放给生态伙伴使用,这使其具备一定的通用性,但并非完全通用。

36氪安徽——在安徽观察世界,在长三角链接全球。 

这里是36氪安徽,我们是安徽的新经济媒体。立足安徽,辐射长三角,为创业者、投资人以及财经、科技、新经济领域从业者提供深度报道。让一部分人先看到未来。 如果你希望得到36氪安徽的报道,或转载相关文章,请将你的需求和BP发送至指定邮箱:wangshun@36kr.com,或拨打电话15720512216,微信号:shunshun4671,我们将在24小时内回复。

+1
6

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

报道的项目

智象未来
我要联系
通用大模型开发商

下一篇

AI产业的发展,不仅要看需求端的爆发,更要看供给端的壁垒。

2025-06-30

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业