打破视频推理「先看后想」惯性,实现真正的「边看边想」

量子位·2026年03月18日 15:42
给VLM装上「双车道」

今天的大型视觉语言模型(VLM)做离线视频分析很强,但一到实时场景就尴尬:

视频在往前走,模型还在“补作业”。

监控告警、机器人交互、自动驾驶——这些任务要的是边看边想,不是看完再想

为此,越来越多的方法采用“帧文交错”的方式实现流式感知视频,即:“看一会,说一会”。

这样的方式看起来够用,是因为模型“想得短”。一旦引入Chain-of-Thought,推理变得更加复杂:模型一思考就占着生成通道不放,新的帧进不来;打断会丢思路,不打断就会过时。

宁波东方理工大学/宁波数字孪生(东方理工)研究院沈晓宇团队的研究提出TaYS,并给出一个明确结论:

要让VLM真正具备实时视频推理能力,必须从“帧文交错”切换到“并行”。

研究论文:

《Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models》

目前,该论文已被CVPR 2026接收。

为什么现在的推理系统不适合实时视频?

主流VLM视频推理系统基本沿用同一套逻辑:

完整视频→统一编码→开始推理→输出答案

这在离线任务没问题,但在流式视频里会出现两个硬伤:

1. 延迟不可控:视频越长,首字输出(TTFT)越慢,交互直接崩。

2. 证据错配:推理发生在“很久以后”,早期线索被长序列淹没,容易漂移甚至幻觉。

为了解决这一问题,一些工作实现“帧文交错”的推理范式,在和原有图文交错的预训练范式对齐的基础上提高视频感知的实时性,但多数仍是串行流水——处理完一帧才轮到推理一步,算力利用率低。

问题还不止于此:复杂视频理解往往需要Chain-of-Thought

在面对很多如选择题等只需要输出单个或几个token的任务,可能“帧文交错”的流式推理形式可以有效解决——毕竟decode只占据极少的时间,但很多视频理解任务并不是简单的目标识别,而是需要多步推理

  • 因果事件推断 (为什么发生)
  • 行为意图理解
  • 长时序事件归纳
  • 复杂交互分析

这些任务往往需要模型生成一段连续的推理过程,而不是直接输出答案,因此,CoT也早已在文本推理、图片理解、离线视频理解中占据重要地位。

看起来,把它应用到流式视频理解非常自然,但问题在于:

CoT会显著拉长推理时间。

在现有架构下,一旦模型进入长时间的CoT推理:

  • 新的视频帧很难被及时加入上下文
  • 如果强行插入,会打断推理链
  • 如果不插入,推理就基于过时证据

换句话说:

视频在继续流动,而模型却被困在一次长时间的思考里。

这使得现有系统在实时场景下几乎无法真正使用CoT推理。

核心思路:把推理改造成“随新的视频帧到达而增长”的流式过程

TaYS(Think-as-You-See)做的不是小修小补,而是把“边看边想”落到三件关键工程上:

1. 流式注意力掩码:保证真正的时间因果

推理token只能看见已到达的帧,避免“偷看未来”。

这一步解决的是:流式场景下输入动态到达,传统因果掩码不够用的问题。

2. 解耦式位置编码:把“时间顺序”和“思考顺序”分开

视频帧是物理时间轴,推理是逻辑生成轴。

TaYS让视觉token和推理token各走各的位置索引,避免跨模态索引冲突,时序推理更稳。

3. 双KV-Cache:让视觉编码与文本推理真正并行

这是TaYS的“发动机”。

把缓存分成两套:

视觉KV-Cache:持续写入新帧特征

推理KV-Cache:持续生成思维链与回答

视觉编码像“生产者”,LLM推理像“消费者”,两者并行跑起来,TTFT和整体延迟都能显著压下去。

结果:不只是更快,也更准

在Qwen2.5-VL等主流模型上,TaYS的实验结论很清晰:

准确性:在事件动态、因果推断、主题理解等视频思维链任务上,整体优于批处理基线与朴素交错流式基线。

延迟:首字生成时间(TTFT)大幅降低,端到端延迟更低且更稳定。

消融验证

  • 去掉双KV-Cache,延迟明显反弹 (并行是关键) 。
  • 去掉解耦位置编码,时序理解更易错位。
  • 去掉流式掩码,会出现不符合真实流式部署的“偷看未来”。

一句话总结实验:

TaYS做到了“边看边想”不降质,反而更稳、更快。

总结:VLM从“离线分析”走向“在线智能”

TaYS的价值不止是指标更漂亮,而是把VLM推向更真实的应用形态:

机器人/具身智能:边看动作演示边给下一步指令,交互不再“卡顿”。

安防监控:从事后检索走向事中预警,异常出现就能及时推理更新。

直播/教育:实时总结、实时答疑、实时解释画面内容,让AI真正参与互动。

它更像一次范式切换:

Streaming reasoning可能会成为下一代多模态系统的默认形态。

当大家都在让模型“更会想”,TaYS提醒了另一件事:

更重要的是,让模型“想得更及时”。

论文标题:Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models

第一作者:张家亮

通讯作者:沈晓宇(宁波东方理工大学)

arxiv:https://arxiv.org/abs/2603.02872

github:https://github.com/EIT-NLP/StreamingLLM/tree/main/TaYS

作者介绍:第一作者张家亮,为宁波东方理工大学/宁波数字孪生(东方理工)研究院沈晓宇团队实习生,研究方向为流式多模态大模型推理优化。在CVPR、TGRS上发表多篇论文。更多科研项目成果请参阅

实验室主页:https://idt.eitech.edu.cn/nlp/#/

本文来自微信公众号“量子位”,作者:EIT-NLP团队 ,36氪经授权发布。

+1
13

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

scLong:10亿参数单细胞模型,纳入全基因组和GO知识,提升多任务性能。

2小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业