百度用AI数字人创造GMV了
6月15日晚,罗永浩数字人在百度电商完成首场直播,吸引超1300万人次观看。其中,GMV(商品交易总额)突破5500万元,部分3C、食品等核心品类商品带货单量超罗永浩5月真人首秀同期数据,创下数字人直播带货新纪录。
当多数AI公司还在多模态上打江山、抢用户的阶段,百度已经基于更先进的高说服力数字人技术,给行业交了一份满分答卷——用AI创造GMV。
然而一个有如此带货实力的数字人到底是如何生产出来的?高说服力数字人如何实现?百度近期为我们做了一次正式揭秘。
百度已经用AI创造GMV了
2025年是毫无疑问的智能体元年。除了先前爆红的通用智能体,越来越多聚焦于办公、设计等场景的垂类智能体也相继出现占领人们的视野。
在行业人士看来,百度的高说服力数字人本质上就是一个超级智能体,其可用性从本次直播成绩可见一斑。
36氪了解到,作为首个头部数字人主播和百度电商的合作,“数字人罗永浩”背后正是百度慧播星的数字人直播技术在提供支持。这项高说服力数字人技术首发于今年4月,其特点在于可以做到像真人一样,形神音容高度协调、会思考决策、能协作完成特定任务,本质上就是一个超级智能体。
百度副总裁、百度电商总经理平晓黎也表示,“百度的罗永浩数字人已达到媲美超头主播的体感效果,随着大模型与多模能力发展,数字人未来超越真人效果极具潜力”。
据百度介绍,罗永浩数字人是慧播星的新一代高说服力数字人,以罗永浩的海量数据训练,实现了剧本、动作、声音、脚本、问答、互动等维度的全方位升级,通过双数字人默契互动、数字人接梗玩梗、更高频的互动问答等提升了用户沉浸感,实现了体验、内容、视觉、效果的四大突破,做到了多个业界第一。
平晓黎分享了她看到的很多用户评论,听到最多的声音是大家都觉得很逼真,也有不少用户在直播间问老罗是不是AI,平晓黎认为,随着罗永浩这样的标杆IP数字人获得正向反馈,说明了用户对数字人的更大程度地接受和认可。慧播星数字人不再仅仅是一个为商家降本增效的AI工具,也给用户也带来了全新的体验,是人货匹配的新演绎,“这是一个新的里程碑,标志着智能电商迈入了新篇章。”
难怪老罗也通过微博和视频表达了“完美收官”“让我惊讶”“实在佩服”的一键三连式的认可,被问及对自己数字人的感受,作为慧播星首席体验官的罗永浩表示超预期:”数字人直播可能代表了电商直播的一个新趋势。”
毫无疑问,这是一场“秀肌肉”的特别直播,成绩直接超过了5月罗永浩本人的带货GMV,相较于上一场,本场直播的关注度也更高,直接引发了外界对其技术本质的好奇。
作为超级智能体,百度慧播星打造的数字人体现的是极其综合的能力,不仅可以让你拥有一个神形音容高度一致的数字人主播,还能实现AI大脑通过多智能体调度实现转化提升,让一个人就能像一个直播团队一样。据悉,通过使用慧播星,直播转化率平均提升31%,而开播成本则降低了80%。这离不开慧播星的百度全栈自研能力,从而达到体验上的最优。
百度集团副总裁吴甜也在开放日的现场表示,“百度的AI技术从架构上来说,一直是全栈建设的,从模态上来说,一直也是全模态发展的。语言、语音、视觉三项技术本身都经过了多年的发展和积累。现在是非常好的从单模态进入到多模态融合阶段的时间点。”
长久的技术积累,让百度更早迎来了变革时刻,罗永浩数字人在百度电商的直播成绩,为智能体撕开了一条裂缝。在未来也能通过规模化的手段,将成本控制到最低,直接解决了智能体赛道的两大痛点。
当行业还陷在多模态的路线之争时,百度已经在用AI创造GMV了。
在数字人上打出直球
正如李彦宏所言,数字人是百度大模型在多模态上的综合体现。数字人聚焦特定垂直领域,相比通用视频生成模型,具有可以更精准地优化模型、追求极致人机交互体验、具备实时交互能力、技术门槛相对较低、应用场景清晰、更容易形成可复制商业模式等优势。这次罗永浩数字人超长时间的直播,就是百度大模型多模型能力的最佳体现。
据悉,整场直播AI调用知识库1.3万次,生成9.7万字产品讲解内容,双数字人搭档做出超8300个动作。
这一次在沟通会现场,百度集团副总裁吴甜还特别向我们讲解展示了数字人背后的技术逻辑。
百度研制的多模协同的数字人技术方案重点包含剧本驱动的数字人多模协同、融合多模规划与深度思考的剧本生成、动态决策的实时交互、文本自控的语音合成、高一致性超拟真数字人长视频生成五项创新技术,实现了数字人的“神、形、音、容、话”高度统一。最终呈现出一个具备高表现力,内容吸引人,人-物-场可自由交互的超拟真数字人。
首先,语言模型是其核心驱动,语言模型负责生成“剧本”,再通过剧本去指导语音和视觉进行多模态的系统及动态交互。
所以,数字人的表现怎么样,剧本的质量至关重要。要知道,数字人在直播过程中,最关键就是口播台词,这些台词也会因不同数字人的多样化风格、拟真化人设、吸引力内容呈现出多样的结果。
这也正是高质量、拟人化的剧本生成技术加持,可以使数字人做到和真人主播一样,有鲜明的性格、人设特点,有趣味的语言风格。这一切都非常考验语言模型的能力。
剧本生成过程中会带出视觉标签和语音标签,指导语音模型对语调进行调整,视觉模型对唇动、表情生成进行对齐,让数字人看起来更加自然流畅。另外,数字人还能根据直播间热度以及用户的反馈,智能地与用户实时动态交互。
一个拥有优质体验的数字人直播,在剧本之后,关键的环节还包括语音合成和视频生成。
语音合成方面,通过文本自控的语音合成大模型,实现高复原的语音合成能力,再结合直播台词及发音人特征,合成风格恰当、自然流畅的声音。为了解决罗永浩数字人直播双人声音配合的难点,他们采用对话上下文编码器,将对话历史输入和当前对话进行语音合成的统一推理计算,让我们看到了老罗和朱萧木两人的数字人在直播间自然的对话效果。
相比于今天市面上常见的10S、20S的生成视频,数字人的直播工作往往是小时级别的,百度为此构建了数字人形象生成和驱动的一整套技术。
该技术是一个可控的、长视频的生成工作,通过视频、剧本、语言、骨骼等特征,通过结合多模态视频理解、跨模态信号生成、视频生成等技术,完成高一致性数字人长视频的生成。
不卷超级应用,做超级有用
今年4月,百度高说服力数字人技术发布之际,李彦宏在现场颇为感慨的表示,“2025年最令人激动的突破性应用之一,就是AI数字人。”李彦宏当时便介绍,“百度发布的高说服力数字人,具有声形超拟真、内容更专业、互动更灵活的特点,在电商直播、游戏、消费等领域,有着巨大的应用空间。”
实际上,百度在押注大模型业务之初,就提出过一个特别的观点——百度不是要推出一个“超级应用”,而是要帮助更多人、更多企业打造出数百万“超级有用”的应用。而数字人正是当下电商行业里“超级有用”的应用。
其实早在罗永浩数字人在百度开播之前,业内就一直在讨论罗永浩是否要再度高调出山,入驻百度,复刻其在其他平台的超高成绩。
结果却大大超出行业意料,更为关键的是,虽然是数字人但其用户转化效果却媲美真人。
有用户在直播间里就最近的热点事件“苏超”进行提问,数字人罗永浩会回应:“我知道苏超最近挺火的,什么比赛第一友谊第十四,热梗挺多的,我建议国足也和苏超学学。”体验非常丝滑。
据披露,本场直播有超1300万用户进行了观看、3倍用户互动量、用户观播时长超30%、订单量较真人直播高出150%、下单用户较真人主播多230%。这些数字也意味着,用户对数字人的接受度已经被验证。
百度电商商业业务部负责人、数字人创新业务部负责人吴晨霞也特别揭秘罗永浩数字人成功的真相——百度方面通过罗永浩、朱萧木的海量数据训练生成数字人主播,同时结合商品特性与罗永浩人设量身定制直播剧本,实现了神形音容全模态高度统一,还原了罗永浩、朱萧木的惯性动作、表情等,做到如同真人一样自然。
“在很多场景下,我们担心数字人更多是把整个脚本讲出来,但不能够让用户持续去看,这场直播证明可以”,吴晨霞向我们解释道。
一个罗永浩尚且如此,更多的主播或将有机会体验技术普惠趋势下带来的高效性和便利性。
要知道,过去由于技术尚不成熟,数字人效果差,普通消费者体验更是一言难尽,不少平台禁止数字人主播进行直播带货等活动。
但百度电商却通过成熟的技术架构,就此打开了一个新市场。不仅解决了多模态商业化落地的难题,也为直播电商行业找到了更加科学有前景的技术方向。在多个电商平台,数字人直播正在从一个可选项变成必选项。
这一次沟通会现场,百度电商顺势推出了两大计划:梦蝶计划将通过流量扶持,超头主播数字人打造、预算扶持,实现百度优选超头主播的数量倍增;繁星计划则将再次追加10万个慧播星数字人,投入1亿元数字人消费补贴、千万级别的运营扶持,帮助更多的普通人、中小企业开启数字人直播。
这也许只是一个新开始,据平晓黎分享,百度将数字人分为四个阶段,“1.0阶段,只是简单实现了虚拟人的外表,但动作僵硬、机械音很重。2.0是超拟真数字人,实现了对人物形象的高精度克隆、支持大动作,摆脱了纸片人效果,可以生成口播脚本和观众互动,目前主流的数字人处在这个阶段。百度的高说服力数字人把AI数字人带入了3.0阶段”。
但实际上,百度的终极理想并不是3.0,而是一个真正超越真人的数字4.0时代,“数字人是有机会登上主流舞台的,在某些方面是可以超过真人的,比如超长待机、千人千面,可实现同一个人使用不同语言、不同风格直播。数字人的天花板还很高,超越真人效果是有很大机会的,不存在数字人会取代真人,因为数字人的终局是服务于人,决定技术走向的始终是人类自己。”