AI“读唇术”再获突破准确度超人类专家

来源：前瞻网 2018-09-11

分享到：

　　全球数以千万计的听障人士，催生了庞大的助听器市场。接下来，AI的发展可能会全面摧毁这个产业，同时给听障人士带来无比的便利性和更加正常的生活。不过，对于正常人来说，这意味着又多了一个信息泄露的手段。

　　对于听障人士来说，读唇无疑是优于手语和助听器的交流方式，既不会阻隔和正常人的交流(手语就不行)，也不会给生活带来太大不便(助听器就不行)。唯一的缺点就是，读唇术太难学，而且误差也很大。幸运的是，AI就是专门用来解决这种问题的。

　　现在，研究人员正在报告一个新的人工智能程序，它比专业的唇读本和最优秀的人工智能程序要好得多，它的错误率只有以前最佳算法的一半。如果完善并集成到智能设备中，这种方法可以让每个人都能读懂唇语。

　　根据《Science》网站上的一篇文章，国外科研人员开发出了一个新的AI读唇程序，比现有的无论是专业人员还是AI程序，效率和精确性都高得多，它的错误率较现有最佳算法下降了50%。试想，若将这种程序和未来的智能设备，比如AI眼镜相结合，听障人士的日常交流即可畅通无阻。

　　伦敦玛丽皇后大学计算机科学家贝儿(Helen Bear)惊叹：“这是一项了不起的杰作!”

　　毫无疑问，让人类自己学会唇语，然后编写成计算机代码，巨大的工作量并非人力所能完成的。在这种情况下，机器学习再次发挥了作用。科学家们只需在系统内存入数千小时的视频和录音，计算机就能自己解决问题。

　　因此，研究人员从YouTube下载了14万小时的视频，囊括了人们在各种各样情境下的交谈内容。随后，他们编写程序，用以细致标注不同的口腔运动、读音。随后，这个程序自动过滤掉了非英语的语音、未说话人员、低质量的视频内容和非直接拍摄的内容。然后，他们将剩余长达近4000小时、包括超过12.7万个英语单词的片段保留了下来。

　　哥伦比亚大学计算机科学家阿克巴里(Hassan Akbari)评论称，这个过程，以及由此产生的数据集——比当前最大的同类数据集大7倍——对于任何开发类似读唇系统来的人来说，都是“重要而价值连城”的。

　　在接下来的开发过程中，近年来逐渐成熟的神经网络系统扮演了重要角色。对于一些简单的计算元素，这种模仿人类神经系统建立的计算系统，可以高效地“思考”和“学习”。而经过剪辑和归类的视频片段，就是这种简单的计算元素。

　　如前文所说，当研究小组给程序输入未标注的视频时，程序会自动筛选出一些口腔运动片段。而神经网络提取了这些片段后，可以计算每个视频帧可能的音素和它们的概率，最后利用可能的音素序列生成英语单词序列。这个就是AI的“学习”过程。

　　研究人员曾对新AI程序进行过37分钟的测试。据他们提交给arXiv网站的一篇文章，在一段陌生的对话视频中，AI正确识别了41%的唇语内容。这看起来不多，但却是目前的最佳成绩。在同一项研究中，专业唇读者出错率为93%(在现实生活中，有语境和肢体语言的情况下，准确率会大大提高)。

　　目前，对已经学习的内容，AI程序已经掌控到非常精细的程度，例如，它可以通过发出“t”时的不同唇形，判断整个词是“boot”还是“beet”，这对于提高准确性大有帮助。

　　贝儿表示，除了为听障人士解决交流难题，解读历史上，甚至可以解开世界最大的谜题之一：在2006年的世界杯决赛中，齐达内在听到马特拉齐说的话后，愤怒地用一记头槌撞向马特拉齐胸口，导致自己被罚下场。而马特拉齐到底说了什么?现在仍是个谜。

　　这种技术还能用在分析安全视频，甚至可能成为特工装备。可以肯定的是，对于那些看重隐私的人来说，这种技术就是噩梦般的存在。那种走在街上，随便说什么都会被摄像头捕捉到的感觉，也许会让他们很不好受。

分享到：

上一篇：国内首批听障医学生山东入学，一驻烟高校尝鲜

下一篇：助听器门店的“一靠二等”

登录账号

登录密码

登录账号（手机）

登录密码

密码确认

原密码

新密码

密码确认

AI“读唇术”再获突破准确度超人类专家

在线客服

商务洽谈

媒体合作

登录账号

登录密码

登录账号（手机）

登录密码

密码确认

原密码

新密码

密码确认

AI“读唇术”再获突破 准确度超人类专家

在线客服

商务洽谈

媒体合作

AI“读唇术”再获突破准确度超人类专家