为什么“看”是AI的切入口？

纪源资本·2026年05月18日 12:01

AI站在了人类科学的肩膀上。

回想一下这十年AI的发展，会发现一件很奇怪的事：AI并不是直接从“理解世界”开始的，而是先从“看世界”这样的感知任务切入的。

Facebook在2010年代重点推进人脸识别系统DeepFace；

Tesla自动驾驶的核心能力，也是基于摄像头对道路环境的视觉理解。

这些公司并不是“刚好”都选择了视觉，而是因为在多种感知模态中，视觉最早实现了大规模的数据化，从而成为深度学习最先取得突破并实现商业化落地的领域之一。

人类有五感，从理论上看，AI在通过传感器获取声音、气味、味道和触觉等信号之后，同样也可以处理这些信息。

那么，AI为何最早从“看”这一感知路径切入？除商业化与数据条件之外，还存在更深层的技术与科学原因。

其实AI之所以能“看”，并不是它自己想出来的，也不是因为视觉在本质上更简单，而是人类先搞明白了“人是怎么看的”，换句话说，借助了人类“神经科学”的成果。这门科学持续研究着人类是如何看、听、闻、尝、触的，而因为“看”的特殊性，AI也因此以视觉作为切入口。

某种意义上，AI也站在了人类科学的肩膀上。

AI是怎么“看懂”世界的

很多人以为，AI之所以能识别图片、看懂视频，是因为算力强、数据多、算法厉害，是因为AI足够聪明。

其实只因为AI站在了巨人的肩膀上。这位“巨人”，是一个不太被大众关注的学科——神经科学。

我们先从一个直观的问题开始：面前有一张狗的照片，我们是怎么知道那是一只小狗的？

我们的大脑无意识地做了三步：

接收信息：眼睛看到光，并将其转成神经信号

提取特征：识别边缘、线条、纹理

综合判断：这里是耳朵、那里是胡须，因此拼成了一个意识：这是一只小狗

也就是说，人类视觉并不是“一眼看懂”，而是从简单到复杂，一层一层推出来的。

20世纪60年代，两位科学家David Hubel和Torsten Wiesel做了一件当时听起来有点“疯狂”的事。

他们把极细的电极插进猫的大脑视觉皮层，然后给猫看各种简单的图案——一条线、一个角度、一束光。他们本来只是想看看猫咪大脑有没有反应，结果却发现：猫咪的某些神经元，只在“竖线”出现时才会放电；某些神经元则只对“横线”敏感；甚至有些神经元，只对“某一个角度”的边缘有反应。

这意味着一件非常颠覆的事：人类的大脑也是同样，人类不是在“看一张图”，而是在“拼一张图”。这就是后来的“感受野”（Receptive Field）概念。

更重要的是，他们还发现视觉是一个“层级结构”，第一层是识别边缘，第二层是将其组合成形状，第三层才是识别物体。

这项研究直接拿下了1981年诺贝尔生理学或医学奖（Nobel Prize in Physiology or Medicine）。敲重点：人类对神经科学的探索，尤其是对视觉的探索，早在那时就足以获得诺贝尔奖。

而AI是怎么“抄作业”的呢？“卷积神经网络之父”、曾任Facebook首席人工智能科学家和纽约大学教授、2018年图灵奖得主的杨立昆（Yann LeCun）很早就在思考：既然人脑是这样识别图像的，能不能让计算机也这样来？

于是，卷积神经网络（Convolutional Neural Network，被简称为CNN）诞生了。它做了两件几乎“照搬人脑”的事情：

第一：每次只看一小块（感受野→卷积核）

一张图片本质是一个“像素矩阵”，机器不会一次看整张图，而是用一个小窗口在图上滑动，每次只处理一个小区域。这个小窗口名叫卷积核（filter），本质上就是在分析：这9个像素，是不是像一条边？

第二：一层一层往上理解（逐级抽象）

CNN层层深入，识别边缘、识别纹理、识别部件（眼睛、轮廓）、判断“这是小狗” ，完全对应了人脑视觉路径。

杨立昆开发了一套系统LeNet，让机器识别手写数字，然后又开发了银行可以识别支票的系统。

在80–90年代，美国银行每天要处理上千万张纸质支票，这些支票上最关键的信息例如金额（比如$123.45），账户号码等，但最大的问题是，它们是“手写的”。银行员工一张一张看，然后手动输入电脑，成本高、速度慢，而且错误率不低。

但这么一件重复、规则模糊、量大的任务，似乎又特别适合CNN的介入。一方面是人们的字体写得歪、连笔、甚至潦草，另外就是传统编程根本搞不定。例如一张支票上的数字“8”，银行员工可以手工识别，但是对于计算机来说却非常难，因为有人写得圆，有人写得扁，有人甚至会把“8”写得像两个分开的圈。

当时杨立昆在AT&T Bell Labs（贝尔实验室）工作，这里重视研究成果像现实应用的转化，他们就引用了杨立昆的LeNet模型。

结果，这个模型成功落地，除了支票金额识别，还兼任了邮政编码识别，把信封上的数字“扒”了下来。在90年代的美国银行系统中，大约有10%–20%的支票处理是由这类神经网络完成的。

不过，当年的数据还是太少，算力太弱。

2012年ImageNet竞赛冠军获得者Hinton和他的学生Alex Krizhevsky设计了模型AlexNet，这个模型让机器识别的错误率从26%直接降到了15%，远超传统算法。这件事直接引爆了整个AI行业，Google、Facebook全面转向深度学习，中国AI行业崛起，自动驾驶开始加速。

AI历史上的一个分水岭，靠的就是深层卷积神经网络（CNN），或者说靠的是神经科学家们几十年前的发现。

AI为什么先要“看”？

当你打字问Deepseek或ChatGPT一个问题，Deepseek或ChatGPT需要看吗？

答案是：不需要。系统直接收到了字符序列，字符会被转成数字（Token），然后进入语言模型。所以AI处理的是“文本数据”，不是图像。

但这是我们直接输入信息的情况。

如果信息在图像、声音、气味、味道和触感之中，AI需要先通过传感器感知它们，获取数据，再进行处理。

为什么“机器视觉”是第一个突破口？首当其冲的原因是视觉最容易数字化，光子直接就能形成像素信号，不需要化学/物理反应转换。图像可以是像素矩阵（数字），在AI眼中，一张图片本质就是一堆数字。

可以说，视觉是“最干净的数据”，容易形成模式识别，而AI训练最容易收敛。而声音、气味就不一样了。它们太复杂，而且牵涉到太多物理性质。

声音是一串时间序列，需要先转频谱

气味是一套分子组合，极其复杂，甚至需要进行化学反应来验证猜测

触觉是一系列判断，需要压力、温度、材质等因素

除了视觉之外，其他每种感觉所需要的转换成本都更高。

第二个以“看”作为切入点的原因，是神经科学对视觉的研究最深入。刚才咱们提到，1981年的实验就涌现出一个诺贝尔奖。

人类对视觉的研究起步早，方法成熟，而且已经形成了多种模型。人类对于感受野、简单细胞/复杂细胞、分层处理也已经有了深度理解。这些直接给了AI贡献出一套设计蓝图。

而嗅觉、味觉，神经科学家们到现在都没完全搞清楚。

第三个原因是商业价值。视觉识别的商业价值，是可想而知地大。

“看”的应用场景太多了：

人脸识别（支付验证、门禁系统、公安追踪）

自动驾驶（道路识别、障碍物检测、行人判断）

安防监控（异常行为识别、人员追踪、风险预警）

电商识图（拍照找同款、商品识别、内容推荐）

所以巨头们一一切入这个战区。谁都不想错过最大的市场、最丰厚的回报。

不过，AI对声音、气味、味道、触感的识别也在蓬勃发展之中。听觉是第二个趋近成熟的项目，代表产品例如Siri、各类语音输入和会议转写工具等。但问题是环境噪声以及语义理解。

AI对嗅觉的识别还很早期。有些公司开发了所谓的“电子鼻”：用传感器检测气体，然后转换成信号，一些欧洲公司正在将它实验并应用在品变质检测、爆炸物识别、疾病检测（比如癌症气味）等方面。

AI对味觉的识别比嗅觉更难，所对应的是电子舌（E-tongue），用于食品工业和水质检测。难点在于人类味觉非常主观，而且和嗅觉强绑定。

AI对触觉的感知正在发展，机器人已经能做到感知压力、判断软硬、简单抓取，因此也出现了各种成熟的工业机器人产品。但离人类的“细腻触觉”还很远。

AI对基础科学的反向超越

咱们聊了这么多，有一个结论却有些反直觉：AI能够“看”，能够感知声音、味道，但AI其实“什么都没感觉到”。

AI比人更“纯粹”、更准确，它的本质是纯粹的模式匹配。而人类视觉会被情绪、经验、偏见所左右（因此会出现如此多的视觉陷阱）。AI只知道：这个图片是小狗，而无法被可爱到、被治愈到，从而产生保护的心理。

其实AI的本质是模式识别，通过边缘、形状来“看”物体，通过声音频率来听到别人打招呼，通过气味来感受到这是花丛。如果没有给AI喂“模式”，它便无法判断。这又涉及到心理学的模式识别（Pattern Recognition）问题。

在AI时代，唯一不变的就只有变化。深层卷积神经网络CNN打下来的江山也在变化着。

CNN指明了一条道路，此后视觉识别的模型一直在进化。例如ResNet是更深的CNN，在2014–2019年被应用，解决了深层网络训练困难的问题。

第四代视觉模型为Transformer，在2020年首次被应用。它反而是对于CNN的反叛。

CNN是“模仿人类视觉”，Transformer是“完全不管人类，直接找更优解”。它可以一开始就直接全图一起看（self-attention），一口气把CNN所遵循的两个生物学原则都违背了：

不再依赖“感受野”，直接全局建关系

不再逐层模拟“视觉路径”，让机器跨区域直接关联

这反而使它变得更加有效，更擅长复杂关系（比如语义、场景），更容易扩展（大模型），而且可以统一处理文本+图像+视频。

所以AI的发展路径，其实经历了一次微妙的变化。一开始，它谦虚地模仿人类，遵循我们对神经科学的了解，但当它逐渐强大之后，它开始远离我们所熟知的科学，而是寻找一种更高效的方式去理解世界。

从CNN到Transformer，这不仅是算法的进化，更像是一种转变：从“模仿智能”，走向“生成智能”。

本文来自微信公众号“纪源资本”，作者：纪源资本，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

为什么“看”是AI的切入口？

最近内容

提及的机构

下一篇