为什么“看”是AI的切入口?
回想一下这十年AI的发展,会发现一件很奇怪的事:AI并不是直接从“理解世界”开始的,而是先从“看世界”这样的感知任务切入的。
Facebook在2010年代重点推进人脸识别系统DeepFace;
Tesla自动驾驶的核心能力,也是基于摄像头对道路环境的视觉理解。
这些公司并不是“刚好”都选择了视觉,而是因为在多种感知模态中,视觉最早实现了大规模的数据化,从而成为深度学习最先取得突破并实现商业化落地的领域之一。
人类有五感,从理论上看,AI在通过传感器获取声音、气味、味道和触觉等信号之后,同样也可以处理这些信息。
那么,AI为何最早从“看”这一感知路径切入?除商业化与数据条件之外,还存在更深层的技术与科学原因。
其实AI之所以能“看”,并不是它自己想出来的,也不是因为视觉在本质上更简单,而是人类先搞明白了“人是怎么看的”,换句话说,借助了人类“神经科学”的成果。这门科学持续研究着人类是如何看、听、闻、尝、触的,而因为“看”的特殊性,AI也因此以视觉作为切入口。
某种意义上,AI也站在了人类科学的肩膀上。
AI是怎么“看懂”世界的
很多人以为,AI之所以能识别图片、看懂视频,是因为算力强、数据多、算法厉害,是因为AI足够聪明。
其实只因为AI站在了巨人的肩膀上。这位“巨人”,是一个不太被大众关注的学科——神经科学。
我们先从一个直观的问题开始:面前有一张狗的照片,我们是怎么知道那是一只小狗的?
我们的大脑无意识地做了三步:
接收信息:眼睛看到光,并将其转成神经信号
提取特征:识别边缘、线条、纹理
综合判断:这里是耳朵、那里是胡须,因此拼成了一个意识:这是一只小狗
也就是说,人类视觉并不是“一眼看懂”,而是从简单到复杂,一层一层推出来的。
20世纪60年代,两位科学家David Hubel和Torsten Wiesel做了一件当时听起来有点“疯狂”的事。
他们把极细的电极插进猫的大脑视觉皮层,然后给猫看各种简单的图案——一条线、一个角度、一束光。他们本来只是想看看猫咪大脑有没有反应,结果却发现:猫咪的某些神经元,只在“竖线”出现时才会放电;某些神经元则只对“横线”敏感;甚至有些神经元,只对“某一个角度”的边缘有反应。
这意味着一件非常颠覆的事:人类的大脑也是同样,人类不是在“看一张图”,而是在“拼一张图”。这就是后来的“感受野”(Receptive Field)概念。
更重要的是,他们还发现视觉是一个“层级结构”,第一层是识别边缘,第二层是将其组合成形状,第三层才是识别物体。
这项研究直接拿下了1981年诺贝尔生理学或医学奖(Nobel Prize in Physiology or Medicine)。敲重点:人类对神经科学的探索,尤其是对视觉的探索,早在那时就足以获得诺贝尔奖。
而AI是怎么“抄作业”的呢?“卷积神经网络之父”、曾任Facebook首席人工智能科学家和纽约大学教授、2018年图灵奖得主的杨立昆(Yann LeCun)很早就在思考:既然人脑是这样识别图像的,能不能让计算机也这样来?
于是,卷积神经网络(Convolutional Neural Network,被简称为CNN)诞生了。它做了两件几乎“照搬人脑”的事情:
第一:每次只看一小块(感受野→卷积核)
一张图片本质是一个“像素矩阵”,机器不会一次看整张图,而是用一个小窗口在图上滑动,每次只处理一个小区域。这个小窗口名叫卷积核(filter),本质上就是在分析:这9个像素,是不是像一条边?
第二:一层一层往上理解(逐级抽象)
CNN层层深入,识别边缘、识别纹理、识别部件(眼睛、轮廓)、判断“这是小狗” ,完全对应了人脑视觉路径。
杨立昆开发了一套系统LeNet,让机器识别手写数字,然后又开发了银行可以识别支票的系统。
在80–90年代,美国银行每天要处理上千万张纸质支票,这些支票上最关键的信息例如金额(比如$123.45),账户号码等,但最大的问题是,它们是“手写的”。银行员工一张一张看,然后手动输入电脑,成本高、速度慢,而且错误率不低。
但这么一件重复、规则模糊、量大的任务,似乎又特别适合CNN的介入。一方面是人们的字体写得歪、连笔、甚至潦草,另外就是传统编程根本搞不定。例如一张支票上的数字“8”,银行员工可以手工识别,但是对于计算机来说却非常难,因为有人写得圆,有人写得扁,有人甚至会把“8”写得像两个分开的圈。
当时杨立昆在AT&T Bell Labs(贝尔实验室)工作,这里重视研究成果像现实应用的转化,他们就引用了杨立昆的LeNet模型。
结果,这个模型成功落地,除了支票金额识别,还兼任了邮政编码识别,把信封上的数字“扒”了下来。在90年代的美国银行系统中,大约有10%–20%的支票处理是由这类神经网络完成的。
不过,当年的数据还是太少,算力太弱。
2012年ImageNet竞赛冠军获得者Hinton和他的学生Alex Krizhevsky设计了模型AlexNet,这个模型让机器识别的错误率从26%直接降到了15%,远超传统算法。这件事直接引爆了整个AI行业,Google、Facebook全面转向深度学习,中国AI行业崛起,自动驾驶开始加速。
AI历史上的一个分水岭,靠的就是深层卷积神经网络(CNN),或者说靠的是神经科学家们几十年前的发现。
AI为什么先要“看”?
当你打字问Deepseek或ChatGPT一个问题,Deepseek或ChatGPT需要看吗?
答案是:不需要。系统直接收到了字符序列,字符会被转成数字(Token),然后进入语言模型。所以AI处理的是“文本数据”,不是图像。
但这是我们直接输入信息的情况。
如果信息在图像、声音、气味、味道和触感之中,AI需要先通过传感器感知它们,获取数据,再进行处理。
为什么“机器视觉”是第一个突破口?首当其冲的原因是视觉最容易数字化,光子直接就能形成像素信号,不需要化学/物理反应转换。图像可以是像素矩阵(数字),在AI眼中,一张图片本质就是一堆数字。
可以说,视觉是“最干净的数据”,容易形成模式识别,而AI训练最容易收敛。而声音、气味就不一样了。它们太复杂,而且牵涉到太多物理性质。
声音是一串时间序列,需要先转频谱
气味是一套分子组合,极其复杂,甚至需要进行化学反应来验证猜测
触觉是一系列判断,需要压力、温度、材质等因素
除了视觉之外,其他每种感觉所需要的转换成本都更高。
第二个以“看”作为切入点的原因,是神经科学对视觉的研究最深入。刚才咱们提到,1981年的实验就涌现出一个诺贝尔奖。
人类对视觉的研究起步早,方法成熟,而且已经形成了多种模型。人类对于感受野、简单细胞/复杂细胞、分层处理也已经有了深度理解。这些直接给了AI贡献出一套设计蓝图。
而嗅觉、味觉,神经科学家们到现在都没完全搞清楚。
第三个原因是商业价值。视觉识别的商业价值,是可想而知地大。
“看”的应用场景太多了:
人脸识别(支付验证、门禁系统、公安追踪)
自动驾驶(道路识别、障碍物检测、行人判断)
安防监控(异常行为识别、人员追踪、风险预警)
电商识图(拍照找同款、商品识别、内容推荐)
所以巨头们一一切入这个战区。谁都不想错过最大的市场、最丰厚的回报。
不过,AI对声音、气味、味道、触感的识别也在蓬勃发展之中。听觉是第二个趋近成熟的项目,代表产品例如Siri、各类语音输入和会议转写工具等。但问题是环境噪声以及语义理解。
AI对嗅觉的识别还很早期。有些公司开发了所谓的“电子鼻”:用传感器检测气体,然后转换成信号,一些欧洲公司正在将它实验并应用在品变质检测、爆炸物识别、疾病检测(比如癌症气味)等方面。
AI对味觉的识别比嗅觉更难,所对应的是电子舌(E-tongue),用于食品工业和水质检测。难点在于人类味觉非常主观,而且和嗅觉强绑定。
AI对触觉的感知正在发展,机器人已经能做到感知压力、判断软硬、简单抓取,因此也出现了各种成熟的工业机器人产品。但离人类的“细腻触觉”还很远。
AI对基础科学的反向超越
咱们聊了这么多,有一个结论却有些反直觉:AI能够“看”,能够感知声音、味道,但AI其实“什么都没感觉到”。
AI比人更“纯粹”、更准确,它的本质是纯粹的模式匹配。而人类视觉会被情绪、经验、偏见所左右(因此会出现如此多的视觉陷阱)。AI只知道:这个图片是小狗,而无法被可爱到、被治愈到,从而产生保护的心理。
其实AI的本质是模式识别,通过边缘、形状来“看”物体,通过声音频率来听到别人打招呼,通过气味来感受到这是花丛。如果没有给AI喂“模式”,它便无法判断。这又涉及到心理学的模式识别(Pattern Recognition)问题。
在AI时代,唯一不变的就只有变化。深层卷积神经网络CNN打下来的江山也在变化着。
CNN指明了一条道路,此后视觉识别的模型一直在进化。例如ResNet是更深的CNN,在2014–2019年被应用,解决了深层网络训练困难的问题。
第四代视觉模型为Transformer,在2020年首次被应用。它反而是对于CNN的反叛。
CNN是“模仿人类视觉”,Transformer是“完全不管人类,直接找更优解”。它可以一开始就直接全图一起看(self-attention),一口气把CNN所遵循的两个生物学原则都违背了:
不再依赖“感受野”,直接全局建关系
不再逐层模拟“视觉路径”,让机器跨区域直接关联
这反而使它变得更加有效,更擅长复杂关系(比如语义、场景),更容易扩展(大模型),而且可以统一处理文本+图像+视频。
所以AI的发展路径,其实经历了一次微妙的变化。一开始,它谦虚地模仿人类,遵循我们对神经科学的了解,但当它逐渐强大之后,它开始远离我们所熟知的科学,而是寻找一种更高效的方式去理解世界。
从CNN到Transformer,这不仅是算法的进化,更像是一种转变:从“模仿智能”,走向“生成智能”。
本文来自微信公众号“纪源资本”,作者:纪源资本,36氪经授权发布。















