美团LongCat-Video正式发布并开源,支持高效长视频生成

36氪的朋友们·2025年10月27日 16:58
美团开源视频生成模型LongCat-Video,支持文生视频、图生视频等任务。

10月27日,美团 LongCat 团队发布并开源视频生成模型 LongCat-Video。团队称,该模型在统一架构下同时支持文本生成视频(Text-to-Video)、图像生成视频(Image-to-Video)与视频续写等基础任务,并在内部与公开基准(含 VBench)测试中取得开源范围内的领先结果。

▲LongCat-Video视频生成模型在文生、图生视频基础任务上达到开源SOTA(资料图)

技术报告显示,LongCat-Video基于 Diffusion Transformer(DiT)架构,采用以“条件帧数量”区分任务的方式:文本生成视频不输入条件帧,图像生成视频输入1帧参考图,视频续写依托多帧前序内容,无需额外模型改造即可覆盖三类任务。

为提升长时序生成能力,模型在预训练阶段引入原生的视频续写任务。团队表示,模型可稳定生成分钟级长视频,并在跨帧时序一致性与物理运动合理性方面做了针对性优化,以减少色彩漂移、画质衰减与动作断裂等问题。

在效率方面,模型结合块稀疏注意力(BSA)与条件 token 缓存机制,以降低长序列推理冗余;据称在处理93帧及以上序列时,能够在效率与生成质量间保持稳定平衡。针对高分辨率、高帧率场景,模型采用“二阶段粗到精(C2F)+ BSA + 蒸馏”的组合策略,报告称推理速度较基线提升至约10.1倍。

参数规模方面,LongCat-Video基座模型约136亿参数。评测覆盖文本对齐、图像对齐、视觉质量、运动质量与整体质量等维度;团队称在文本对齐与运动连贯等指标上表现突出,并在公开基准 VBench 等测试中取得较好成绩。

LongCat 团队将此次发布定位为其“世界模型(World Model)”方向探索的一步,相关代码与模型已对外开源。上述结论与性能表述均引自团队技术报告与发布材料。

本文来自“腾讯科技”,编译:晓静,36氪经授权发布。

+1
6

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

当技术让资金的流动不再是障碍,Airwallex 选择了一个更难,也更根本的目标:让信任,也能在全球商业中无限流动。

3小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业