全球数以千万计的听障人士,催生了庞大的助听器市场。接下来,AI的发展可能会全面摧毁这个产业,同时给听障人士带来无比的便利性和更加正常的生活。不过,对于正常人来说,这意味着又多了一个信息泄露的手段。
对于听障人士来说,读唇无疑是优于手语和助听器的交流方式,既不会阻隔和正常人的交流(手语就不行),也不会给生活带来太大不便(助听器就不行)。唯一的缺点就是,读唇术太难学,而且误差也很大。幸运的是,AI就是专门用来解决这种问题的。
现在,研究人员正在报告一个新的人工智能程序,它比专业的唇读本和最优秀的人工智能程序要好得多,它的错误率只有以前最佳算法的一半。如果完善并集成到智能设备中,这种方法可以让每个人都能读懂唇语。
根据《Science》网站上的一篇文章,国外科研人员开发出了一个新的AI读唇程序,比现有的无论是专业人员还是AI程序,效率和精确性都高得多,它的错误率较现有最佳算法下降了50%。试想,若将这种程序和未来的智能设备,比如AI眼镜相结合,听障人士的日常交流即可畅通无阻。
伦敦玛丽皇后大学计算机科学家贝儿(Helen Bear)惊叹:“这是一项了不起的杰作!”
毫无疑问,让人类自己学会唇语,然后编写成计算机代码,巨大的工作量并非人力所能完成的。在这种情况下,机器学习再次发挥了作用。科学家们只需在系统内存入数千小时的视频和录音,计算机就能自己解决问题。
因此,研究人员从YouTube下载了14万小时的视频,囊括了人们在各种各样情境下的交谈内容。随后,他们编写程序,用以细致标注不同的口腔运动、读音。随后,这个程序自动过滤掉了非英语的语音、未说话人员、低质量的视频内容和非直接拍摄的内容。然后,他们将剩余长达近4000小时、包括超过12.7万个英语单词的片段保留了下来。
哥伦比亚大学计算机科学家阿克巴里(Hassan Akbari)评论称,这个过程,以及由此产生的数据集——比当前最大的同类数据集大7倍——对于任何开发类似读唇系统来的人来说,都是“重要而价值连城”的。
在接下来的开发过程中,近年来逐渐成熟的神经网络系统扮演了重要角色。对于一些简单的计算元素,这种模仿人类神经系统建立的计算系统,可以高效地“思考”和“学习”。而经过剪辑和归类的视频片段,就是这种简单的计算元素。
如前文所说,当研究小组给程序输入未标注的视频时,程序会自动筛选出一些口腔运动片段。而神经网络提取了这些片段后,可以计算每个视频帧可能的音素和它们的概率,最后利用可能的音素序列生成英语单词序列。这个就是AI的“学习”过程。
研究人员曾对新AI程序进行过37分钟的测试。据他们提交给arXiv网站的一篇文章,在一段陌生的对话视频中,AI正确识别了41%的唇语内容。这看起来不多,但却是目前的最佳成绩。在同一项研究中,专业唇读者出错率为93%(在现实生活中,有语境和肢体语言的情况下,准确率会大大提高)。
目前,对已经学习的内容,AI程序已经掌控到非常精细的程度,例如,它可以通过发出“t”时的不同唇形,判断整个词是“boot”还是“beet”,这对于提高准确性大有帮助。
贝儿表示,除了为听障人士解决交流难题,解读历史上,甚至可以解开世界最大的谜题之一:在2006年的世界杯决赛中,齐达内在听到马特拉齐说的话后,愤怒地用一记头槌撞向马特拉齐胸口,导致自己被罚下场。而马特拉齐到底说了什么?现在仍是个谜。
这种技术还能用在分析安全视频,甚至可能成为特工装备。可以肯定的是,对于那些看重隐私的人来说,这种技术就是噩梦般的存在。那种走在街上,随便说什么都会被摄像头捕捉到的感觉,也许会让他们很不好受。