AI 又进化了,DeepSeek 再推 “ 王炸 ” 新功能

科技狐·2025年10月24日 19:47
AI 也要减肥?DeepSeek 玩起“光学瘦身术”

最近 AI 圈又出新花活儿了,DeepSeek 团队悄咪咪地开源了一个 30 亿参数的小模型,名叫DeepSeek-OCR

别看体量不大,想法可是够炸的:他们居然打算让 AI用看图的方式去读文本

没错,真“看图识字”。

而且不只是识字,而是让“视觉模态”成为一种文本压缩介质,用图片来代表文字,用“视觉 token”取代“文本 token”,实现所谓的光学压缩(Optical Compression)

说实话,老狐看到这论文内容的时候,第一反应是:他们是想让语言模型也上美术课?

不过仔细一想,还真挺有道理。

大语言模型(LLM)最大的痛点是什么?处理长文本太烧算力。

大家都知道,大模型的注意力机制复杂度是平方级的。你给它2倍的输入,它要算4倍的东西;你让它记住一整个长文档,它立刻开始“烧卡烧心”。

那能不能换个思路?DeepSeek 团队说:既然一张图能装下好多字,那不如把文本直接变成图像,再让模型去看图!

论文里有个特别直观的例子:原本 1000 个 token 才能表达的内容,现在只用 100 个视觉 token 搞定,压缩 10 倍,还能保留 97% 的 OCR 准确率。

再狠点,压缩 20 倍也还能保留约 60% 的准确率。这意味着,模型“读图”的效率,居然比“读字”还高。

换句话说,模型没丢太多信息,但算力负担轻了十倍。

不少网友看到这里都傻了:AI 处理图像用量比长文本还少?这反人类直觉啊!

也有网友感叹:DeepSeek 这是想让模型“看文档像刷朋友圈”一样轻松。

老狐觉得,这波操作可以称得上“反向降维打击”。

过去我们都在想办法让模型更懂文字、看得更远;DeepSeek 直接反着来:让模型把字变成画,再“看画识文”。有点像回到了人类最原始的沟通方式:象形。

说到这儿,得聊聊这模型到底咋做的。DeepSeek-OCR 由两部分组成:DeepEncoder(看图压缩)+DeepSeek3B-MoE(解码还原)。

前者是整个系统的“压缩引擎”,它把两大视觉猛将 SAM-base 和 CLIP-large 串起来:

SAM 负责盯细节的“窗口注意力”,CLIP 负责抓整体的“全局注意力”。中间还塞了个 16× 卷积压缩模块,专门砍 token。

比如说,一张 1024×1024 的图片,理论上要被切成 4096 块去处理,现在被这个压缩模块一刀下去,直接瘦身成几百个 token。

这样一来,既保留了清晰度,又不炸显存。

而且它还支持多档分辨率模式:Tiny、Small、Base、Large,还有一个代号叫 “Gundam(高达)” 的动态模式。

你没看错,这模型甚至取名都带点“中二魂”。

解码器部分则是 DeepSeek 的老本行:MoE(混合专家)架构

64 个专家中每次只激活 6 个,再加两个共享专家,实际算力只动用了约 5.7 亿参数,但性能媲美 30 亿模型。又快又省,堪称“节能灯中的战斗机”。

它的任务也不复杂,就是从那些压缩后的视觉 token 里,把文字“解码”回来。

整个过程有点像 OCR 的升级版,不过,这次是模型自己在“看图猜字”,而不是人类教它识字,而且猜得非常准。

当然,要把这玩意训好,得先喂够粮。DeepSeek 这回可是下了血本:整整 3000 万页 PDF 文档,涵盖 100 种语言,其中中英文就占 2500 万页。

他们还整了个“模型飞轮”:先用一个版面分析模型粗标数据,再用 GOT-OCR 之类的模型做精标,训练一遍,再反过来标更多数据。

循环往复,模型自己喂自己长大。

除此之外,还有 300 万条 Word 文档,专门练公式识别、HTML 表格提取,甚至包括金融图表、化学结构式、几何图形等奇奇怪怪的图像结构,也都被塞进训练集中。

DeepSeek 还从 LAION、Wukong 这些开源数据集抓了中英文各 1000 万张场景图,用 PaddleOCR 标注。

可以说,这波训练,真的是“从理工科到艺术科全覆盖”,真真正正用数据砸出来的聪明脑袋。

那效果咋样?论文里放了几组结果,非常能打。

在 OmniDocBench 测试上,DeepSeek-OCR 用100 个视觉 token就超过了 GOT-OCR2.0(每页 256 token)。用不到800 个视觉 token,又超越了 MinerU2.0(每页 6000+ token)。

性能更强、输入更短、推理更快。

这速度,简直是“AI 印刷机”。

不过,最让老狐拍案叫绝的,是论文最后那个脑洞:光学压缩还能模拟人类遗忘?

人脑的记忆会随时间衰退,旧事模糊,新事清晰。DeepSeek 团队就琢磨:那 AI 能不能也学会“忘”?

如果 AI 也能像人一样“选择性记忆”,是不是就能在超长对话里活得更轻松?

他们设计了一个实验设想:超过第 k 轮的历史对话内容,就渲染成图像;先压一遍,减少 10 倍 token;再久远一点,继续缩小图像尺寸;图像越小,信息越模糊,最终就“忘掉”了。

有网友看完直接感叹:这不就是在模拟人脑记忆机制嘛!

当然,也有人泼冷水:DeepSeek 的幻觉高得惊人,这要是再给它学会“忘”,怕是忘得比人还快。

老狐看完这部分,是真觉得有点哲学意味。AI 的记忆,到底该无限延展,还是学会遗忘?

DeepSeek 给出的答案是后者,它用视觉的方式,让模型在“压缩”的同时,也“过滤”掉冗余。就像人脑那样:只留有用的信息。

这背后的意义,比 OCR 本身更大。它在重新定义“上下文”的概念:不是记得多,而是记得精。

说到底,DeepSeek-OCR 看似是个 OCR 模型,实则是在试探一种新范式:能不能用视觉模态来高效承载语言信息?

在所有人都往“更大、更长、更贵”的方向卷的时候,DeepSeek 却反手做了个“更小、更快、更巧”的模型。

这事儿本身就很 DeepSeek。

老狐最后想说一句:AI 的进化,可能并不总是加法,有时候减法更优雅。

DeepSeek-OCR 就是个活生生的例子:一个 3B 小模型,玩出了长文本压缩的新思路,甚至顺手摸到了“记忆与遗忘”的边界。

如果说去年是“谁能记住更多”,那今年,可能是“谁能忘得更聪明”。而 DeepSeek,这次又走在了前头。

本文来自微信公众号“科技狐”(ID:kejihutv),作者:老狐,36氪经授权发布。

+1
1

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

特斯拉的豪赌与困局

5小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业