专业唇语阅读者识别唇语的准确率只有20%到60%。人类在日常说话过程中嘴唇的微小移动很难被可靠地解读,尤其是在有一定距离,或画面不清晰的情况下。不过,唇语并不只是美剧《海军罪案调查科》中的噱头,对全球的失聪者来说,这是一项有用的工具。如果能可靠地解读,那么将给数百万人带来帮助。
牛津大学的最新研究描述了一种名为LipNet的人工智能系统。通过“观看”人类说话的视频,以及输入相应文字,这一软件对唇语的解读准确率高达93.4%。这项研究得到了谷歌(微博)旗下DeepMind的资助。
此前最佳的唇语解读工具只能实现逐个单词的解读,准确率只有79.6%。牛津大学研究员表示,新系统获得成功的关键在于通过不同方式去思考这一问题。这一系统不再利用可视元素,即说话者嘴型的变化去训练人工智能,而是每次都处理一整个句子。这使得人工智能可以学会单词对应于什么样的嘴型变化。
为了训练这一系统,研究员向人工智能展示了2.9万条带文字标签的视频,每段视频长度为3秒。而为了观察专业唇语阅读者做得如何,该团队还邀请了“牛津学生残疾人社团”的3名成员,用300条随机视频去进行类似的测试。这些专家的平均错误率为47.7%,而人工智能的错误率只有6.6%。
尽管这一项目取得了成功,但也暴露出了当代人工智能研究的局限。在指导人工智能如何阅读唇语的过程中,牛津大学团队使用了经过设计的视频。视频中的所有人物都面向前方,光线明亮,说出标准结构的语句。
视频中的典型语句时长为3秒钟,例如:“Place blue in m 1 soon。”这其中包括命令、颜色、介词、字母、数字,以及副词。所有语句都采用这样的模式。因此,人工智能的超高准确率只是在一种极端情况下取得的。如果要求人工智能从随机的YouTube视频中阅读唇语,那么结果可能很不准确。
有其他研究人员指出,利用这种特殊视频去训练并不符合真实世界场景。不过,论文作者南多·德弗雷塔斯(Nando de Freitas)为自己的成果进行了辩护。他指出,该团队曾尝试过其他视频,但这些视频带来了太多“噪音”。这些视频各不相同,因此人工智能无法取得有意义的结论。这也意味着,完美的数据集可能并不存在。德弗雷塔斯认为,考虑到这一人工智能的准确率,最终情况如何将取决于任务本身。
OpenAI的杰克·克拉克(Jack Clark)表示,如果希望在现实世界中得到应用,那么这一人工智能还需要三方面的优化:人们在现实世界场景中大量的说话视频;让人工智能可以从多个不同角度去阅读唇语;以及让人工智能可预测的短语类型更多样化。
克拉克表示:“这项技术具备显而易见的应用,但这看起来似乎并不可能。”如果人工智能可以学会阅读唇语,那么将适用于多种场景。此类系统可以被用于帮助听力障碍人士了解周围发生的对话,或是让其他人工智能更好地辨别视频中的声音,生成准确的字幕。
来源:腾讯科技 作者:编译:陈桦