SALMONN 系列音视频理解大模型霸榜回归,推理增强、高帧率、无文本泄漏全线突破
SALMONN 家族在首个通用音频理解模型(ICLR 2024)和首个全要素音视频理解模型 video-SALMONN(ICML 2024)基础上再次迎来重磅扩容,霸榜各大音视频理解榜单!
全新一代 video-SALMONN 2/2+、首个开源推理增强型音视频理解大模型 video-SALMONN-o1(ICML 2025)、首个高帧率视频理解大模型 F-16(ICML 2025),以及无文本泄漏基准测试 AVUT(EMNLP 2025) 正式发布。新阵容在视频理解能力与评测体系全线突破,全面巩固 SALMONN 家族在开源音视频理解大模型赛道的领先地位。
图像由 Nano-Banana 生成
新旗舰登场,video-SALMONN 2+
video-SALMONN 2+ 是首个专注于高质量、完整视频描述的音视频大语言模型。通过原子事件级的评估体系与 MrDPO 多轮强化学习优化,它大幅减少信息遗漏和幻觉。在字幕完整性和准确性指标上取得最好结果(SOTA)。
研究团队进一步发现:利用该模型大规模生成高质量描述,并将其反哺新模型训练,不仅能保持强描述能力,还能显著提升问答等音视频理解任务表现。
最终,video-SALMONN 2+ 在 Video-MME、 WorldSense、AVUT、Video-Holmes、DailyOmni 等音视频理解榜单,MLVU、LVBench 等静音视频理解榜单上全面领先。72B 版本整体性能超越 GPT-4o、Google Gemini 1.5 Pro 等闭源巨头。
得益于对音频模态的同步利用,video-SALMONN 2+ 系列在 Video-MME 等榜单上,无字幕(端到端真实系统)与有字幕(外挂人工标注或商业语音识别系统生成的理想字幕)之间的性能差距小于 2%。这表明音视频联动能有效增强语义理解能力,并能在无人工字幕的视频与具身机器人等场景中具有明显优势。
研究团队首先以 Qwen 2.5-VL 7B 为底座构建音视频模型,经上述音视频训练流程及 MrDPO 训练得到 video-SALMONN 2+ 7B。随后,利用该模型对更大规模的音视频数据进行高质量描述标注,并以此为数据源,训练基于 Qwen 2.5-VL 3B/72B 的音视频大模型,最终获得 video-SALMONN 2+ 3B/72B。实验显示,相比仅用原始标注数据训练的基线,新模型在视频理解能力上实现了全面提升。
Video-MME 数据集上的消融实验结果结果验证了该的技术路径有效性:高描述能力模型可充当高质量训练数据的 “生成器”,为更强音视频理解模型提供可靠的数据基础,推动模型持续迭代与性能跃升。
推理增强,让模型真正看懂,video-SALMONN-o1(ICML 2025)
问题: 表演者为什么想成为黑山公民?选择:
A. 因为黑山是个美丽的国家
B. 因为他想住在一个名字匹配他肤色的国家
C. 他想成为一座山
D. 他觉得黑山的人都很有吸引力
E. 他觉得这个国家的名字听起来很酷
video-SALMONN-o1 推理:
喜剧演员说欧洲有一个国家叫做黑山。
然后他重复了一遍这个名字,强调它的独特性:“有一个满是白人的国家,叫做黑山。”
他表示自己很想成为其中一员,甚至开玩笑说要把国籍改成黑山。
他想成为黑山公民的理由是:那是一个美丽的地方,而且名字与他的肤色相符。
因此,答案是 B. 他想生活在一个与自己肤色相符的国家
问题: 表演者谈到了直男在照片中的习惯。为什么观众会笑呢?请从以下选项中选择:
A. 表演者的衬衫很好笑。
B. 表演者让观众想起了他们的朋友。
C. 观众感到被冒犯了,于是尴尬地笑了。
D. 表演者是女性,觉得取笑直男很有趣。
E. 光是想象就觉得好笑,而表演者还把它演出来了。
video-SALMONN-o1 推理:
表演者在开直男的玩笑,说他们拍照时喜欢抬着下巴摆姿势。
然后他亲自模仿了这种姿势,并加以夸张来制造喜剧效果。
观众之所以发笑,是因为他们能够产生共鸣,并觉得这种摆姿势的行为本身就很滑稽。
因此,答案是 E. 光是想象就觉得好笑,而表演者还把它演出来了。
问题: 这个视频里有什么笑话以及为什么好笑?请逐步详细分析
video-SALMONN-o1 推理:
笑点在于:美国副总统乔・拜登写了一本自传。
说话者(很可能是个喜剧演员或观众)说他觉得这本书比实际好得多。
这很有趣,因为它利用了一个常见的观念 —— 政治人物往往会把自己描绘得比他们真正值得的更正面。
说话者暗示拜登的自传好得令人难以置信,这是一种对情境的幽默夸张。
在脱口秀等复杂视频中,深层理解不仅依赖于音频与视觉的联合感知,还需要在此基础上开展多步推理。video-SALMONN-o1 是首个推理增强的开源音视频大语言模型:相较于同类开源系统直接输出答案,它可以同时接收音频与视频输入,执行基于证据的逐步推理并给出结论,实现结果与理由的一致性。实验观察表明,针对数学 / 编程的文本推理优化,或以图文为主的推理范式,难以有效泛化至音视频理解;video-SALMONN-o1 以音视频原生的过程监督与推理优化,拓宽了推理的应用边界,使大模型能以推理为核心更全面地理解物理世界。
问题: 双胞胎研究如何分离 TBI(创伤性脑损伤)对痴呆风险的影响。请逐步分析。
video-SALMONN-o1 推理:
问题在于双胞胎研究如何分离 TBI(创伤性脑损伤)对痴呆风险的影响。我们需要明确该研究中有哪些关键要素,能够帮助把 TBI 的作用与其他影响痴呆的因素区分开来。
讲者提到,该研究采用 “双胞胎配对” 设计,也就是说比较双胞胎个体。这意味着研究重点在于控制遗传因素和共同的环境因素。
讲者强调,研究中的双胞胎在 TBI 上是不一致的(即一人有 TBI,另一人没有),在痴呆发病上也是不一致的(即一人发展为痴呆,另一人没有)。这种设计使研究者能够控制早期的遗传和环境暴露因素,因为这些在双胞胎之间是相似的。
通过比较在 TBI 经历和痴呆结果上不同的双胞胎,研究就能隔离出 TBI 对痴呆风险的影响。如果 TBI 是一个重要的风险因素,我们就会预期:有 TBI 的双胞胎更容易发展为痴呆,而没有 TBI 的双胞胎则相对较少出现痴呆。
在脱口秀、学术演讲等复杂音视频场景中,理解不仅依赖于音频与视觉的联合感知,还需要在此基础上开展多步推理。video-SALMONN-o1 是首个推理增强的开源音视频大语言模型:相较于同类开源系统直接输出答案,它可以同时接收音频与视频输入,执行基于证据的逐步推理并给出结论,实现结果与理由的一致性。实验观察表明,针对数学 / 编程的文本推理,以及图文推理,均难以泛化至音视频场景;video-SALMONN-o1 以音视频原生的过程监督与推理优化,拓宽了推理的应用边界,使大模型能以推理为核心更全面准确的理解物理世界。
核心算法 process DPO
pDPO rollout 和 contrastive step selection 示意图
Process DPO(pDPO) 是 video-SALMONN-o1 核心提出的训练方法。与传统过程奖励函数(PRM) 同样关注逐步(step-level) 优化不同,pDPO 面向音视频场景中自检能力弱、难以获得稳定步骤级奖励的问题,改用偏好优化路径:在每一步开始时采样两个候选下一步 sk 与 s’k,分别进行推理展开(rollout),依据展开结果的正确性比较两者优劣,并将 DPO 损失细化到步骤级进行优化。
针对大量 rollout 带来的计算开销,pDPO 进一步引入基于扰动的不确定性估计:通过对当前状态施加微小扰动、观察输出变化来评估各步的不确定性,仅对不确定性高的关键步骤执行偏好对比与优化,从而显著降低计算成本。
高帧率突破,捕捉决定性瞬间,F-16(ICML 2025)
F-16 是首个为高帧率视频理解而生的大模型。人眼感知远超 30FPS,体育直播、电竞高光、快速切镜这些关键时刻,高帧率决定你能不能 “看全、看准”。遗憾的是,多数视频大模型还停留在 1 FPS 左右 的低采样,信息大量流失;简单拉高帧率又会把算力 “烧空”。
F-16 的答案是多帧联合对齐压缩。它把多帧特征一起送入对齐器,一边对齐语义、一边做高效压缩,既保住图像编码器的预训练语义,又把计算成本压下来。结果很直接:在通用视频理解基准上,F-16 追平并改写同时期同规模纯视觉开源模型 SOTA 结果;在运动等高帧率任务上稳居 SOTA。
从左到右: FPS = 16、FPS = 1、FPS = 16、FPS = 1
更直观的结果来了:在篮足体跳四大体育任务上,用同一训练数据微调的 F-16 高帧率模型不仅全线压过低帧率基线,还跑赢 GPT-4o、Gemini 1.5 Pro 等头部闭源模型,再次验证了高帧率信息的价值。
该研究系统性验证了高帧率信息在通用视频理解中的关键作用,为后续对高帧率视频理解模型的深入探索奠定了坚实基础。
降低文本泄漏,打造公正的评测基准:AVUT(EMNLP 2025)
AVUT 聚焦通用场景下的音视频理解,涵盖信息获取、内容计数、事件定位与匹配、说话人日志等多类任务。其中很多测试依赖非语音的音频事件等模态线索,单纯的语音转文本无法覆盖,这也凸显了音视频协同理解的必要性。
值得警惕的是,音视频理解任务中有一个常被忽略的大坑:文本短路。很多评测里,模型哪怕不看视频,只看题目和选项就能答对(见下表 Text-only Accuracy%)。这意味着不少 “高分”,其实并非真正的音视频理解。
如上表所示,在多项常用数据集中,GPT-4o 模型仅依赖文本即可取得较高的准确率。为此,我们提出 AVUT 测试集,一方面平衡音频、视频与文本三种模态的贡献,另一方面有效抑制文本捷径,直击 “只看文本也能答对” 的评测痛点。
我们还引入了 Cycled Accuracy%:把每道题的选项打乱重排 (ABCD, BCDA, CDAB, DABC),将正确答案依次放在不同位置,只有模型在所有排列里都选同一答案才算对。这样就能有效抑制 “位置偏好” 造成的水分(比如不确定就 “蒙 C”)。结果显示,AVUT 数据能够避免 “偏好型刷分”。
随着 video-SALMONN 2+ 领跑榜单、video-SALMONN-o1 推理增强落地、F-16 高帧率架构升级,以及以音频为核心的 AVUT 基准建立,SALMONN 家族已形成从模型到评测、从效率到效果的完整闭环。它不仅刷新了开源视频理解的上限,也为产业与学术界提供了有效的方法创新和可靠的对比标准。面向真实世界的多模态场景,SALMONN 的这次 “集群式” 进化正把视频理解推向 “看得懂、听得准、答得明”。未来,SALMONN 系列将持续迭代,带来更强模型与更完善生态!
团队介绍
清华大学电子工程系多媒体信号与智能信息处理实验室在医工交叉和语音处理领域有长期积淀。实验室的张超研究小组成立于 2022 年,专注于多模态大语言模型、脑信号解码与大脑健康研究。
SALMONN 系列开源地址:https://github.com/bytedance/SALMONN
论文地址:
video-SALMONN 2:https://arxiv.org/abs/2506.15220
video-SALMONN-o1:https://openreview.net/pdf?id=y62fhuA69I
F-16:https://openreview.net/pdf?id=3H7qAT9Qow
AVUT Benchmark:https://arxiv.org/abs/2503.19951
本文来自微信公众号“机器之心”,36氪经授权发布。