DeepMind最近做了个能读懂唇语新软件，为失聪者提供有力工具_医疗健康

2016

11/10

13:26

腾讯科技

作者：编译：陈桦

医疗健康

专业唇语阅读者识别唇语的准确率只有20%到60%。人类在日常说话过程中嘴唇的微小移动很难被可靠地解读，尤其是在有一定距离，或画面不清晰的情况下。不过，唇语并不只是美剧《海军罪案调查科》中的噱头，对全球的失聪者来说，这是一项有用的工具。如果能可靠地解读，那么将给数百万人带来帮助。

牛津大学的最新研究描述了一种名为LipNet的人工智能系统。通过“观看”人类说话的视频，以及输入相应文字，这一软件对唇语的解读准确率高达93.4%。这项研究得到了谷歌（微博）旗下DeepMind的资助。

此前最佳的唇语解读工具只能实现逐个单词的解读，准确率只有79.6%。牛津大学研究员表示，新系统获得成功的关键在于通过不同方式去思考这一问题。这一系统不再利用可视元素，即说话者嘴型的变化去训练人工智能，而是每次都处理一整个句子。这使得人工智能可以学会单词对应于什么样的嘴型变化。

为了训练这一系统，研究员向人工智能展示了2.9万条带文字标签的视频，每段视频长度为3秒。而为了观察专业唇语阅读者做得如何，该团队还邀请了“牛津学生残疾人社团”的3名成员，用300条随机视频去进行类似的测试。这些专家的平均错误率为47.7%，而人工智能的错误率只有6.6%。

尽管这一项目取得了成功，但也暴露出了当代人工智能研究的局限。在指导人工智能如何阅读唇语的过程中，牛津大学团队使用了经过设计的视频。视频中的所有人物都面向前方，光线明亮，说出标准结构的语句。

视频中的典型语句时长为3秒钟，例如：“Place blue in m 1 soon。”这其中包括命令、颜色、介词、字母、数字，以及副词。所有语句都采用这样的模式。因此，人工智能的超高准确率只是在一种极端情况下取得的。如果要求人工智能从随机的YouTube视频中阅读唇语，那么结果可能很不准确。

有其他研究人员指出，利用这种特殊视频去训练并不符合真实世界场景。不过，论文作者南多·德弗雷塔斯（Nando de Freitas）为自己的成果进行了辩护。他指出，该团队曾尝试过其他视频，但这些视频带来了太多“噪音”。这些视频各不相同，因此人工智能无法取得有意义的结论。这也意味着，完美的数据集可能并不存在。德弗雷塔斯认为，考虑到这一人工智能的准确率，最终情况如何将取决于任务本身。

OpenAI的杰克·克拉克（Jack Clark）表示，如果希望在现实世界中得到应用，那么这一人工智能还需要三方面的优化：人们在现实世界场景中大量的说话视频；让人工智能可以从多个不同角度去阅读唇语；以及让人工智能可预测的短语类型更多样化。

克拉克表示：“这项技术具备显而易见的应用，但这看起来似乎并不可能。”如果人工智能可以学会阅读唇语，那么将适用于多种场景。此类系统可以被用于帮助听力障碍人士了解周围发生的对话，或是让其他人工智能更好地辨别视频中的声音，生成准确的字幕。

来源：腾讯科技作者：编译：陈桦

（原标题：DeepMind最近做了个新软件它能读懂唇语）

标签