DeepSeek-OCR实现光学压缩 光计算可为大模型“减负”
注意力机制是大语言模型能够取得成功的重要基石,然而随着上下文窗口不断增加,计算注意力矩阵所需的算力呈指数级增长,当上下文窗口长度达到 1000K 时,仅存储注意力矩阵就需要约 2TB 的显存,最终将导致大模型“脑子”不够用了。
为了解决这个问题,DeepSeek设想通过上下文光学压缩的方法实现利用视觉token对文本token完成压缩,最终DeepSeek-OCR的论文验证了这一设想可行性,并启发业内尝试推动让大模型像人一样开始遗忘。
光计算系统解决方案商光本位科技表示,上下文光学压缩可行性的验证,更进一步说明光计算会成为大语言模型的未来,公司正积极推进光计算与大模型接轨。
01 用“视觉token”压缩文本
在DeepSeek-OCR的论文中,DeepSeek用数据展示了该方法在视觉压缩上的能力,当压缩率达到10倍时,仍然能保持96.5%的精度,这一惊人的表现揭露了视觉压缩的可行性。
DeepSeek-OCR论文数据
DeepSeek提出的DeepEncoder模块是实现上下文光学压缩的核心引擎,其中包含三个模块,分别是SAM、两层卷积块和CLIP。
SAM模块先通过窗口注意力机制,将原图分割成多个局部窗口,使用ViT图像识别模型将每个局部窗口的图像通过矩阵进行关联度计算,相互关联性高的区域会融合彼此的特征从而使它们关联变得统一,而空白区域由于关联性差而保持低特征值,在下一步的卷积模块处理中会被卷积块丢弃,实现信息提取、压缩两不误。
最后经过提取、压缩的视觉token被输入到CLIP,利用全局注意力机制,从这些压缩后的信息中捕捉图像的整体语义和上下文。
至此DeepSeek-OCR完成了全部的压缩环节,成功将原本需要1000文本token才能代表的数据压缩成100个视觉token。
DeepSeek-OCR压缩示意图
02 为何光计算更适合上下文压缩
从过程来看,DeepSeek-OCR实现光学压缩主要用到的ViT图像识别模型与CNN卷积运算两大结构,其中的关键环节是在ViT中引入注意力机制以及CNN中利用不同的卷积核对于信息进行过滤。
从本质上看,不论是ViT中的注意力机制还是CNN中不同的卷积核的过滤,都是信息聚合的计算过程,这使得ViT和CNN两种计算结构都需要一个高效的硬件载体来进行计算。
ViT、CNN这种底层计算为向量矩阵乘法以及卷积形式的信息压缩机制,天然适合通过光计算的并行计算架构处理,使得光计算芯片完成信息压缩的速度和能耗都会远优于电芯片。此外灵活性也大大增加,光计算芯片内部的传播路径以及计算的逻辑还可以根据不同的需求进行调整。
如同下图所示,通过将计算引入光域,DeepEncoder在经过光本位科技自主研发的128×128矩阵规模的全域可编程存算一体光计算引擎加速后,可以达到对该类计算任务的计算效率提升100倍与能效比提升10倍的效果。
DeepSeek-OCR光计算加速示意图
为何光计算可以实现信息压缩的高效加速与极致的能效比?通过测试,光本位科技认为在压缩上下文这样的类脑任务中,光计算相较GPU有着压倒性的优势。
最直观的优势便是计算过程的简化。在传统的电芯片中需要完成卷积、缩放、池化、激活、衰减、采样量化等多种计算过程,但在光计算中,图像信息可以自然的通过光学的方式进行计算和处理,上述的计算过程将在传播过程中即可完成,完全不依赖任何额外功耗进行计算。
如下图所示,图像信息通过光的折射将不同频率的光信号直接输入到光计算芯片内部,经过不同计算光路上的调制和耦合,即可完成压缩,实现无额外能量消耗的计算。此外,光本位科技特有的存算一体架构可以使其光计算引擎在处理批量任务时保持“零静态维持功耗”。
图像信息输入示意图
光计算芯片另一大优势是可扩展性。无论是扩大阵列规模以提升并行度;还是提高参数刷新频率以提升动态可编程性等均可实现,且比电子芯片上限更高、能耗更少。维度的任意扩展为长文本推理提供了超出传统电计算路径的扩展空间。
除了图像,光本位科技正在尝试将其他形式的信息编码成不同频率的光信号,并输入到光计算芯片内部,经过不同光路上的调制和耦合,同样实现无额外能量消耗的计算。
其他形式信息输入示意图
03 光计算硬件未来连接大模型
DeepSeek-OCR发布后,DeepSeek提出将探索基于人脑遗忘机制的算法,其核心是用模糊代替过去的删除。光本位科技认为遗忘算法机制实现的核心仍然是高效的提取特征,降低特征维度,甚至与已有的特征进行融合形成新的特征。
由此,公司设想未来将存算一体架构通过特殊的光路结构乃至异质集成设计,利用相变材料(PCM)的非易失性可以高效地模拟与信息关联的人脑神经元,从而实现高效的计算以及类脑的信息编码与存储。
DeepSeek-OCR的出现为光计算芯片的通用化设计提供了新思路,或将成为打通光计算硬件端与大模型连接的突破点。
光本位科技计划未来利用光计算芯片的优势推出上下文压缩专用硬件、AI任务专用硬件以及配套软件栈,与大模型实现接轨。如此不仅能够实现在已有的模型上进一步提升近百倍的算力以及超过十倍的能效比,还能够为未来的新计算范式提供高效的计算基座。
光本位光计算平台与DeepSeek-OCR融合前后示意图
如今,随着大模型的广泛运用,长文本推理对参数规模、带宽与上下文信息压缩能力提出新挑战。传统GPU受制于内存墙与功耗密度,扩展上下文时往往受限于显存与带宽。因此需要光计算利用其大算力、高带宽、低功耗的优势来改变大模型现状。
光本位科技表示,未来将逐渐构建起全光大规模AI计算的下一代颠覆式平台系统,提供全场景覆盖的全栈光计算解决方案。
本文来自微信公众号“光本位”,作者:光本位研究院,36氪经授权发布。















