读懂唇语,为什么那么难呢?

ZEALER·2021-09-06
通过观察唇语,听懂别人的话,对于一般人来说,可能是一项可有可无的技巧。但是对于一部分人,这或许是他们“听”别人说话的时候,不得不尝试的途径。

在影视剧中,每个人都可以是唇语大师。但是在现实生活中,读懂唇语,相当于在每两秒钟,就要完成一道完形填空题。你甚至没有重看和修改的机会。所以在没有其他信息辅助的情况下,即便是经验丰富的唇语专家,读唇的成功率,也不过是在五成左右。所以不夸张的说,会读别人的唇语,绝对算是一种超能力了。

那么问题来了——读懂唇语,为什么那么难呢?

读唇的困难,首先来自我们说话的方式。

当一个人说话时,嘴巴会随着说话的内容,不断地发生变化。所以我们会下意识地认为,我们的发音和嘴型之间,是能够一一对应的。事实上,这仅仅是我们说话过程中的冰山一角。剩下的大部分工作,其实都隐藏在一些,你看不见的地方。

这是一张国际音标表,在所有音标里,只有30%左右的音标,是直接由我们的嘴唇来控制的。而剩下的七成音标,都是难以通过肉眼观察出区别的齿音、舌音和喉音。这就是为什么在很多时候,看上去一模一样的嘴型,也很可能被解读成完全不同的结果。

此外,说话人的连词、口音、甚至是胡须的浓密程度,都会造成嘴型的变化。尽管这些变化非常细微,但任何一处变化,都足以影响读唇的判断。恐怕只有像FBI干员那样的观察水平,才能够做到快速捕捉并且分辨出这些细微差别了。

既然一般人很难完成这项任务,那么有没有可能通过技术手段来完成呢?

其实在三十多年前,就已经有人在做这种尝试了。

1988年,美国电报电话公司——AT&T旗下的贝尔实验室,就做了一个实验。他们用一台高速相机,捕捉实验对象嘴型的变化。每半秒钟,相机就会拍下30张左右的照片,然后把它们跟人所说的数字或者字母之间建立联系。

通过这种方法,他们惊讶地发现,唇语识别的成功率,甚至比语音识别的成功率还要高。既然机器读唇这么厉害,为什么不干脆用它取代语音识别呢?这是因为当时的计算机,无论是存储介质还是运算能力,都存在着很大的限制。在这个实验里,让机器对10个数字和26个英文字母进行逐一识别,就已经接近极限了,根本识别不了连续的语句。

随着硬件水平的提高和机器学习的大行其道,从90年代末开始,越来越多的实验室,尝试把深度学习算法,应用到了唇语识别技术的开发上。

谷歌旗下的明星企业——DeepMind,就是其中的佼佼者。[5]2016年,它们以卷积神经网络为基础,编写了一套唇语识别算法。然后用电视节目主持人说出的超过十万句话,来训练这套算法。通过这样一套算法,机器唇语识别表现得甚至比唇语专家还要好。

可惜的是,这项技术仍然有它的瓶颈。一旦脱离了熟悉的运作环境,就很有可能出现这样的结果……

既然效果不理想,为什么还有那么多大公司、院校,愿意投入资源研究唇语识别技术呢?

通过观察唇语,听懂别人的话,对于一般人来说,可能是一项可有可无的技巧。但是对于一部分人,这或许是他们“听”别人说话的时候,不得不尝试的途径。

根据世界卫生组织的统计,直到2020年,世界上大概有5亿人罹患听力障碍。这个数字正在以每年3%左右的速度在持续攀升,预计到2050年,全球就会有近10亿人口,将要遭受到听觉失常的折磨。

目前,当听障患者与别人交流时,要么需要通过效率低下的聋哑人手语,要么就得借助价格昂贵的助听器设备。无论采用哪种方式,都会造成不小的负担。尽管以目前的技术水平,唇语识别的技术可靠性有待提升。但是如果未来,它变得足够成熟,我们为什么不能想象一下,通过智能眼镜,就能直接“读出”别人正在说的话呢?

本文来自微信公众号“ZEALER”(ID:zealertech),作者:ZEALER,36氪经授权发布。

+1
3

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

文章提及的项目

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业