绿洲对谈陈涛教授:空中楼阁的地基
绿洲:您如何看待 CV 和 NLP 和大模型的发展?
陈教授: AI 里的 CV 和 NLP,CV 至少占50%以上比重,人类 75% 的信息是靠视觉获得,自然成为 AI 里重要的分支。
2012 年以前 CV 是传统神经网络加 SDM 博弈的过程,一直停留在学术界,对工业界影响很小,落地也难。2012 年后因为大数据和大算力的发展促进了深层神经网络的学习,掀起一波浪潮,持续到 18、19 年,可以说是 CV 落地需求最旺盛的时期,比如监控、自动驾驶、安防等等。但 18 年之后,业界发现无论如何去设计和优化模型,始终存在边界效应和长尾场景。
语言或语音是人主动产生的,图像和视频是由物体器件被动拍摄出来的,两者的产出形式不同,信号的形式自然就不一样。前者具有高度语义密集性和统一性,后者则为高度稀疏和不确定性。文字是经过人的脑意识加工所组织表达出的优化版本,NLP 和CV 以及图像相比,场景发散性小,难度也低。而 CV 和图像面对的场景,比如车载摄像头拍摄到的天气变化和自然环境,都充满不确定性,这是 CV 的天然特点。
不同的特性决定了 NLP 更容易找到落地场景,比如餐饮、语音,譬如讯飞或者谷歌的 TTS。21 、 22 年这波大模型的兴起,也是从 NLP 中率先跑出来。转而看 CV,除了少数巨头如华为的 AI 芯片、海康威视的视觉安防有盈利之外,其他很多 AI 企业基本都是亏损的。人类对未知事务可以去理解、尝试和学习,也可以去规避和优化,但 AI 在 CV 层 面较难做到,只能识别或感知见过的事物,对于未知的和稀有的内容却无法识别。自动驾驶、医学、安防中经常会出现失败案例,在这类行业中,哪怕做到 99% 成功,但凡出现 1 例不可靠,就会被质疑,因此 CV 的落地场景一直处于低谷。
大模型的突然爆发,让 CV 领域又燃起了希望。之前 AI 领域内的许多专家学者认为纯粹大数据驱动的 CV 和 AI 是不可持续的,深度学习不应该从大模型大数据暴力累加,应该做新一代人工智能,如“类脑智能”、“知识和数据双驱动”。原因是大数据驱动的 AI 是数据形式的智能,而人脑本身不需要大数据驱动,但能力比深度模型高级太多,能耗又只有 6 瓦特,而 Bert 光训练一次中等规模模型的能耗就相当于中国电动机车一生的电量消耗。北大清华、美国都有脑科学计划,研究如何将大脑中的记忆、认知、对世界规律的理解,具象成数学表达方式,只有这样才能让计算机去实现。
事情的发展往往违反认知,“大力出奇迹”的大模型出现了。目前的事实证明只要模型见得够多,算力够强,确实就能学习出超强的智能体。反而从 18 年到 21 年,一直没看到“类脑智能”的产业化,即使是马斯克的 Neuralink,也远没达到变现的阶段,低功率低碳的小智能模型停滞不前。
绿洲:新的范式变化对您的研究领域产生了什么影响,对大模型的发展方向有什么预期?
陈教授: 人类看东西或者理解事物是多感官共同协作的过程。多模态或者跨模态大模型一定是未来发展的主流趋势,OpenAI 等海外巨头也一定或者已经在做多模态大模型。语音、文字、图像、3D统一的大模型一旦做出来,对整个领域影响势必深远。中科院有多模态的国家重点实验室,反映了国家、政府、民间层面对多模态旺盛的需求。
图文大模型的新工作一直在出现,我们组这两年也调整方向做一些跨模态和多模态研究,尝试把 2D、3D 包括 NLP 融合做理解,从图像产生文字解释和注释;或者基于 NLP 去理解和定位视觉的场景目标,这些都更加符合人类正常使用的诉求。
我们研究方向的另一个调整是因为大模型升级后对高校算力资源提出挑战,因此考虑在有限资源下探索和设计适配消费终端的低算力模型,通过其它方式诸如端云协同,群智协同等来弥补小模型本身的能力不足。
另外,学术界如果也去卷大数据大算力,会失去学术研究自身的特色。所以我们还是要更专注前沿性技术理论,做跟工业界有区分但对实际应用有价值的内容。
绿洲:您对中国发展大模型的前景怎么看?
陈教授: 大模型确实强,不搞就会被动,未来大模型可能会像芯片一样,也变成“卡脖子”的技术。大模型一旦形成一套产业链,让用户产生使用依赖,就可能要收费,而且费用可能会很高。同时,在用户使用大模型的过程中,也是大模型研发机构间接收集用户数据的过程。美国目前因为其 AI 算力和研究能力的优势在大模型上已经走在了前面。中国有天然大场景、大数据优势,理应充分利用起来学习更强的大模型。
绿洲:从您角度来看,大语言模型,或者您做的 vision transformer,要真正在端上跑,主要面临的挑战是什么?
陈教授: 举个例子,我们之前和中兴有个合作项目,就是采用稀疏卷积的思想在中兴搭载高通 855 芯片的手机上做实时轻量化的视频理解分割,设计了即插即用且兼容目前视频 AR 模型的模块替换进去,大大加速了推理速度和节省了计算量。
从之前的经验来看,端侧芯片部署主要面临以下三个挑战:
1. 国产芯片兼容性。 为什么明知英伟达随时会限制对中国的显卡芯片出口,但还是有那么多人喜欢用? 因为它的生态很好,对环境、平台的兼容性好,各种主流模型放进去都能跑出好结果。 很多国产芯片去跑主流深度模型,有些子模块支持度依然不够,甚至需要自己重写,如果遇到不完全开放的国产平台,就算重写也搞不进去。
目前边缘端的算力已经很强了,对端侧一般模型的部署限制有限。比如地平线自动驾驶的征程系列芯片,算力也能达到好几十甚至上百 T 的 FLOPS。但国产 AI 芯片有些内核的模块和组件不是完全国产,最后可能还会受制于人。再者有些框架和平台和加分引擎是自己设计的,对目前国际主流 AI 计算架构支持不友好。
即便是英伟达最好的芯片,针对 Transformer 的加速能力还是有所欠缺,英伟达目前也在设计改良对 Transformer 类模型高速化或者定性支持的下一代产品。Transformer 当下是各类大模型的准入模型,谁能抢占支持 Transformer 最好的芯片,就能占得先机。
2. 内存。 芯片 RAM 太小,模型加载进来直接吃死内存。 最近几年科研界也提出了“感存算”一体化设计芯片的概念,存算一体化省去数据的读入读出,所有模型计算数据存储缓冲都在一个芯片里完成。 虽然目前还没有大规模商业化,但是布局方向明确。
以我们自己做的实验为例,模型在 GPU 上推理速度一秒钟 40 多帧,觉得完全可以适应芯片。可是模型一放进去内存就卡住了,速度直降 50%。所以我们也要把模型和核心硬件的适配能力做强。
3. 软硬不协同: AI算法、硬件和芯片的设计协同度不够高,设计人员彼此缺乏沟通,导致在电脑、GPU 上设计出的算法,即使 FLOP 降了,占内存少,但设计的模型结构对于芯片的并行计算和稀疏特性考虑不全面,实际效果依然欠佳。
我们的工作就是去弥合软件和硬件之间的间隙,基于现有模型去做针对硬件优化的重要一环。举个例子,因为图像的稀疏特性,模型从其中提取的特征图有效激活值有时只有 10%-20%,而且稀疏地分布在图片里的某些行和列。我们尝试把这些稀疏特征压缩成 1 个密集分布的特征小矩阵和 1 个存放激活值的索引矩阵,这样芯片可以快速处理密集分布的特征矩阵,速度就提升了。
工作不应该只是一篇论文、一个算法。算法再好,没有芯片,很多算法模型、甚至大模型都是空中楼阁。我们组本身不做芯片,但希望从软硬协同、一体化设计方案取得突破,对 AI 硬件的迭代或者优化、对“卡脖子”的技术提供助力。
绿洲:您觉得这波浪潮对 CV 研究的影响是正向的还是负面的?
陈教授: 启发大于危机。危机一定会存在,大模型会对传统 CV 任务中的许多赛道带来冲击,比如做 2D 跨域适应的,就可能被 SAM 直接取代,SAM 可以将一般场景中未见过的东西都分割出来,跨域任务直接不存在了。
但机会还是大于危机。GPT 等的重要思维是强化学习和人机反馈互动,以及对抗学习、使用 Prompt 的提示学习等等。CV 可以借鉴 GPT 的思路,使用语言和视觉两路模态,将知识一起提取出来,进行迭代的模型优化和参数学习。以 SAM 举例,基于已经利用互联网数据学习产生的 SAM 母体模型,利用其理解能力对小场景做数据标注,利用其举一反三的能力去做数据生成,都可以辅助 CV 的场景更好落地。CV 中的“知识蒸馏”,就是用大模型教学并培养小模型的能力。从 SAM 类的母体模型提取的特征可以作为老师去监督信息,产生很强的小模型,从而实现无监督的学习。
绿洲:上一波 CV 最实际的落地是安防,这一波对视觉落地的场景会有促进么?
陈教授: 要优先考虑 CV 与 NLP 结合的场景。视觉大模型的发展不像 NLP 模型那么聚焦。人脸识别虽然做得很好,但是安防里有很多任务不是大模型可以搞定的,如果根本拍不到脸呢?在被动识别任务中,视觉落地是存在挑战的。
这波浪潮可以助力的领域, 尤其会出现在叠加 NLP 服务的用户自愿配合的主动识别场景,比如服务型行业的问答式机器人;工业制造中的缺陷检测,之前缺陷检测的瓶颈在于对不可控的瑕疵和缺陷没有扩展能力,而视觉大模型可以让机器做出 0/1 分类,报出“没见过”的异常;远程医疗中多病例诊断领域,之前落地不理想,现在可以利用大模型,将 NLP 的知识记录加上影像辅助,做出大概率准确的判断分析和建议。很多企业和研究人员已经在多模态通用问诊上发力;AIGC 领域一定会有助力,也有很多企业落地了。
绿洲:所以对纯视觉的提升作用如何呢?
陈教授: 视觉的很多问题在前端,传感器本身不好,算法再好也不行。
绿洲:抛开限制,CV 的落地场景会在哪里?
陈教授: 我觉得是 AR,VR 领域。视觉中两个最本质的问题:一是视觉理解,是 Bottom-up 的过程。理解的过程就是信息浓缩和提取的过程,AI 要分析其中的要素和语义信息,视频或者图片里在发生什么;二是视觉生成,是 Top-down 的过程,拿到要素后,再注入新元素,呈现另一个场景或者原始场景,与用户交互形成闭环。
AR,VR 已经能看到前景,终究人类还是希望通过视觉获得满足感和体验感。视觉的发展要回归到以人为中心,现在的自动驾驶、安防还是 ToB 的。未来视觉的交互的定义是革命化的,不需要物理的存在感,比如元宇宙的虚拟场景,VR 等虚拟世界中产生交互。
绿洲:您的研究成果如何转化?
陈教授: 我们正在做基于多模态的预训练基础模型,为不同的下游任务提供更好的母体模型。在一部分自动驾驶任务上,很多基于我们设计和预训练的 backbone 模型能带来下游任务的提升,这点已经得到验证。我们也乐意去和更多 CV 下游企业以及面向消费终端的企业合作,服务他们提升智能化水平。
绿洲:如何解决资源受限的问题?
陈教授: 开源是最直接的渠道。CV 过去十年的快速发展,就是因为开源。大模型很重要,背后的大数据更重要。数据有问题,大模型的品质一定有问题。中国的人口基数和场景,是天然优势,如果能进一步打破行业壁垒,建立一定范围内的开源生态社区,就能发展起来。客观而言,最近几年大模型的开源性不是很好,大模型公司也不太会公布具体技术细节。
绿洲:OpenAI 最近在提攻击,您的组也在做相同的方向?
陈教授: 无心插柳了(笑)。我们的初衷是做自动驾驶的数据增强,数据合成以提升模型的识别能力。实验过程中发现有些原本要被扔掉的负对抗样本,可以用来增强模型的能力。我们通过这个发现,重新审视了对抗学习中的对抗样本,到底能在视觉驾驶识别任务中起到怎样的作用。在统计了大量对抗样本对模型形成曲线和性能后发现,只要利用得当,是可以助力视觉问题的。我们就通过对抗攻击视角去做视觉下游任务总结了一篇工作(https://arxiv.org/abs/2305.10766),获得了蛮多认可。
绿洲:您觉得未来会走向 AGI,还是世界模型?
陈教授: 我个人倾向 AGI 吧。世界是很复杂的,很多物理现象,模态的高度稀疏,不确定性,以现在的水平很难用一个统一的理论去概括。世界模型的高成本、高代价会产生不可控的收益比,实用性和意义在哪里?
AGI 针对垂直领域会得到重大突破。举个例子,医疗中有很多问题有待解决,比如很多疾病需要 MRI 诊断,但因为费用昂贵、医院设备有限、甚至没有配置等种种原因导致病人无法使用,是刚性问题。如果能基于跨模态医学诊断模型减轻医疗成本,可以缓解病人的压力,就已经迈出一大步。
我们前段时间做的通用自动驾驶模型,也是想针对当前数据集、场景和任务不统一的现状,构建统一基线,做通用的自动驾驶训练框架平台。
世界模型在短期内更像一个概念,能把 AGI 做下来,已经很不错了。
绿洲:您觉得如何才能提高在人工智能领域的实战能力?
陈教授: 需要老师、教授、从业人员走出舒适区,去做跨域和融合的研究。国家有关部门也建立了交叉研究的学部。虽然人性的特点就是不愿意做自己兴趣范围之外的事,但为了行业的发展,还是需要在领域交叉,比如软硬件结合等层面多交流,多沟通,拿出探索精神,一旦成功,影响力是很大的。
参赞生命力
你觉得什么是科技生命力?
科技水平依赖科技软硬件实验条件,会随着人类认知水平提升而提升,科学定理也会迭代发展,新规律甚至会推翻旧规律。人的生命是有限的,而人类对科技、自然甚至宇宙的探索远未到尽头。人类的认知本身就像一个生命体,会不停自我否定,推陈出新,螺旋式上升,这就是生命的魅力吧。
—— 陈涛教授,上海复旦大学信息科学与工程学院
本文来自微信公众号“緑洲资本 Vitalbridge”(ID:Vitalbridge),作者:参赞生命力,36氪经授权发布。