Seedance 2.0全量上线,字节正式加入春节模型大战
在预热阶段获得用户追捧的Seedance 2.0提前亮相,字节跳动正式加入春节模型大战。
根据此前的规划,字节跳动原计划于2月14日发布视频模型Seedance 2.0、图像创作模型Seedream 5.0 Preview以及豆包大模型2.0。
根据字节跳动披露的信息,Seedance 2.0采用统一的多模态音视频联合生成架构,支持文字、图片、音频、视频四种模态输入,集成了目前业界最全面的多模态内容参考和编辑能力。
字节跳动表示,Seedance 2.0支持混合模态输入,允许用户同时输入多达 9 张图片、3 段视频、3 段音频以及自然语言指令。
该图片可能由AI生成
多模态参考能力演示:提示词:@图片 1 女孩打破次元壁,连续穿越多幅名画世界,保留真实质感,油画世界呈现 3D 高饱和度动画风格。她站在 @图片 2 的旋转星空下神情激动;接着好奇看着 @图片 3 的情侣拥抱,情侣不好意思地用被子将头遮住;随后与 @图片 4 戴珍珠耳环少女一起自拍;紧接着进入 @图片 5 在两名武士中间穿过;与 @图片 6 一起扮鬼脸呐喊;跑到 @图片 7 蒙娜丽莎身旁,被摸头贴脸;在 @图片 8 女人面前转身换装,二人互行礼;随后与 @图片 9 中的梵高一起画画;最后背对镜头看夕阳,随即转身甜美一笑。对比度高,电影质感,转场丝滑无缝,人物鲜活。
根据实测的情况来看,用户可以直接在交互界面选择“全能参考”生成模式,同时可以在提示词中使用@符号来标记参考图以保证生成的一致性。
根据平台提示,生成5秒钟的视频需要扣除40个点数,由于有大量用户排队,5s的视频生成时间预计2小时,系统提供了免费加速2次的机会,不过受限于版权等原因,一些名人相关的图片已经无法生成内容。
相比此前的1.5版本,Seedance 2.0突出几个主要特点:生成质量、复杂交互和运动场景下高可用率、更符合物理学特点等。
根据字节的官方说法,Seedance 2.0解决物理规律遵循、长效的一致性难题,核心是依靠海量世界知识、稀疏架构的效能优势,以及多模态联合训练涌现的泛化能力。
该图片可能由AI生成
生成内容物理规律遵循能力演示:提示词 竞技级双人花样滑冰现场。开场低机位跟随冰刀滑行,冰屑与反光细节清晰。进入旋转段,男选手轴线微偏出现失误,旋转节奏短暂塌陷。女选手迅速调整重心,眼神冷静并示意“Stay with me”,主动引导男选手重新对齐节奏。随后无缝衔接托举动作,线条干净稳定。高潮为同步跳跃组合,空中姿态笔直,落冰果断,音画完美对齐。女选手身着深蓝花滑裙,男选手为竞技运动装。整体呈现从紧张失误到冷静完成比赛的完整叙事,体现顶级双人花样滑冰中的技术能力与心理强度。
另外,在生成过程当中,用户还可以利用Seedance 2.0的视频编辑能力,支持对指定片段、角色、动作或剧情进行定向修改。
字节跳动还强调,Seedance 2.0最长支持15秒的多镜头视频生成,进而增加在影视、广告等领域的可用性,以降低内容制作成本。
需要注意的是,目前即梦的APP端和PC端,虽然都整合了Seedance 2.0模型,但功能略有差异。
比如在移动端,“出镜”功能默认采用Seedance 2.0,需要录制真人并且完成校验,创作功能中则提供了Seedance 2.0 fast以及之前的模型。
而在PC端,用户可以在视频生成的全能参考、首尾帧两个入口使用Seedance 2.0。
对此,一名字节跳动内部人士介绍,主要是基于不同设备应用场景不同,为创作者提供了不同创作能力。
字节跳动透露,在文生视频和图生视频覆盖的运动稳定性、指令遵循、音画同步等基准测试(如上图)等维度上大幅度的领先,OpenAI的Sora 2 Pro、快手可灵3.0等产品。但同时也强调,其需要持续改善细节稳定性、拟真度以及多人口型匹配等问题。
多模态任务方面(如上图),与生数的Vidu Q2 Pro、快手的可灵3.0等相比,Seedance 2.0在提示词指令遵循、多模态遵循两个维度表现最为突出,而在编辑一致性、参考对齐和动态质量上,也处于行业第一梯队的水平。
字节跳动表示,Seedance 2.0在多模态任务处理上,指令响应更加完整,生成画面更加真实。在一致性表现上,模型在主体形象与声音还原方面表现相对较好,但也强调模型在多主体一致性、文字还原精度及复杂编辑效果上,仍有优化的空间。
本文来自“腾讯科技”,作者:苏扬,36氪经授权发布。















