唇语识别通过机器视觉技术,从图像中识别出人脸,并提取此人连续的口型变化特征,将连续变化的口型特征输入到唇语识别模型中识别出对应的发音,再计算出可能性最大的自然语言语句。
只动动嘴巴,即使不出声,光看口型就知道你在说什么,这种存在于武侠剧中的桥段正在加速成为现实。日前,在乌镇第四届世界互联网大会上,基于人工智能与大数据可视分析能力的唇语识别系统能够实现“密语传音”,成为时下最吸睛、最炫酷的黑科技之一。
当你说出“这首歌叫什么名字”时,机器不用收音、进行语音识别,通过识别你的唇部动作,就能准确识别语义的内容。这让不少体验后的网友感叹,“之前只知道有语音识别、面部识别,没想到还能唇语识别,有种武林高手的感觉!”
据研发企业海云数据介绍,唇语识别的原理其实是使用机器视觉技术,从图像中识别出人脸,判断其中正在说话的人,并提取此人连续的口型变化特征。随后,将连续变化的口型特征输入到唇语识别模型中识别出对应的发音。最后,根据识别出的发音再计算出可能性最大的自然语言语句。
那么,唇语识别的精准度如何?海云数据创始人冯一村表示,通过使用1万多小时的新闻素材对唇语识别系统进行训练,目前海云数据对英文的识别准确率在80%左右,中文准确率为71%,而国外所知的最高识别率仅为不到50%。未来,随着“语料”越来越多,唇语识别率还将获得稳步提升。
相比于唇语识别的技术路径,人们更关心它将用于何处。据悉,唇语识别应用技术是目前国际研究的热门课题,可应用的领域包括场景教育、身份识别、公共安全、移动支付、军事情报等。比如,通过唇语识别,可以让无法开口说话的残障人士自由表达、让听力障碍者和不少老年人更清晰地听懂他人;通过口型支付密码,可以进行移动支付;而在军事情报领域,唇语识别则让远距离获取情报成为可能。
“最初的想法是用于公安系统中,因为公安部门的视频数据占到其全部数据的95%以上,基本都是无声数据,激活视频的语义内容价值非常巨大。”冯一村说,可以预想,加入唇语识别技术后,公安人员可通过平台锁定视频中犯罪嫌疑人的语言记录,这将极大助力犯罪缉查工作的开展。
值得一提的是,唇语识别背后并不是一个小众的市场。在噪音太大或只有摄像头等无法捕捉声音的场合中,唇语识别技术具备很强的实用性。比如,在公路、会议室、火车站等噪音嘈杂的场景中,唇语识别可以帮助规避音频噪声对用户说话内容获取的影响,确保交流顺畅进行。而在电梯、公路等监测场景,只有摄像头,没有麦克风,通过唇语识别技术,可以获取重要的用户讲话信息,为公共安全提供有效的支持。
无独有偶,搜狗也在本届互联网大会上演示了其最新的唇语识别系统。该系统可提取人面部的三维图像信息,提取面部的动作序列,识别的效果相比以前更准确。据介绍,未来这项技术有望应用于车载系统,以及帮助听障人士“翻译”正常人语言,通过唇读技术把语音转换成文字,帮助他们更好地了解世界。
业内人士预计,鉴于在公共安全、身份识别、残障教育、军事等领域的竞争力,唇语识别技术或将开启万亿级的大数据市场。但鉴于语言环境的复杂性,唇语识别真正投入实战还尚需时日,仍需进一步加强大数据、可视分析、人工智能技术等领域的融合研究。