唇语精准识别密语传音成真

唇语识别通过机器视觉技术，从图像中识别出人脸，并提取此人连续的口型变化特征，将连续变化的口型特征输入到唇语识别模型中识别出对应的发音，再计算出可能性最大的自然语言语句。

只动动嘴巴，即使不出声，光看口型就知道你在说什么，这种存在于武侠剧中的桥段正在加速成为现实。日前，在乌镇第四届世界互联网大会上，基于人工智能与大数据可视分析能力的唇语识别系统能够实现“密语传音”，成为时下最吸睛、最炫酷的黑科技之一。

当你说出“这首歌叫什么名字”时，机器不用收音、进行语音识别，通过识别你的唇部动作，就能准确识别语义的内容。这让不少体验后的网友感叹，“之前只知道有语音识别、面部识别，没想到还能唇语识别，有种武林高手的感觉！”

据研发企业海云数据介绍，唇语识别的原理其实是使用机器视觉技术，从图像中识别出人脸，判断其中正在说话的人，并提取此人连续的口型变化特征。随后，将连续变化的口型特征输入到唇语识别模型中识别出对应的发音。最后，根据识别出的发音再计算出可能性最大的自然语言语句。

那么，唇语识别的精准度如何？海云数据创始人冯一村表示，通过使用1万多小时的新闻素材对唇语识别系统进行训练，目前海云数据对英文的识别准确率在80%左右，中文准确率为71%，而国外所知的最高识别率仅为不到50%。未来，随着“语料”越来越多，唇语识别率还将获得稳步提升。

相比于唇语识别的技术路径，人们更关心它将用于何处。据悉，唇语识别应用技术是目前国际研究的热门课题，可应用的领域包括场景教育、身份识别、公共安全、移动支付、军事情报等。比如，通过唇语识别，可以让无法开口说话的残障人士自由表达、让听力障碍者和不少老年人更清晰地听懂他人；通过口型支付密码，可以进行移动支付；而在军事情报领域，唇语识别则让远距离获取情报成为可能。

“最初的想法是用于公安系统中，因为公安部门的视频数据占到其全部数据的95%以上，基本都是无声数据，激活视频的语义内容价值非常巨大。”冯一村说，可以预想，加入唇语识别技术后，公安人员可通过平台锁定视频中犯罪嫌疑人的语言记录，这将极大助力犯罪缉查工作的开展。

值得一提的是，唇语识别背后并不是一个小众的市场。在噪音太大或只有摄像头等无法捕捉声音的场合中，唇语识别技术具备很强的实用性。比如，在公路、会议室、火车站等噪音嘈杂的场景中，唇语识别可以帮助规避音频噪声对用户说话内容获取的影响，确保交流顺畅进行。而在电梯、公路等监测场景，只有摄像头，没有麦克风，通过唇语识别技术，可以获取重要的用户讲话信息，为公共安全提供有效的支持。

无独有偶，搜狗也在本届互联网大会上演示了其最新的唇语识别系统。该系统可提取人面部的三维图像信息，提取面部的动作序列，识别的效果相比以前更准确。据介绍，未来这项技术有望应用于车载系统，以及帮助听障人士“翻译”正常人语言，通过唇读技术把语音转换成文字，帮助他们更好地了解世界。

业内人士预计，鉴于在公共安全、身份识别、残障教育、军事等领域的竞争力，唇语识别技术或将开启万亿级的大数据市场。但鉴于语言环境的复杂性，唇语识别真正投入实战还尚需时日，仍需进一步加强大数据、可视分析、人工智能技术等领域的融合研究。

唇语精准识别 密语传音成真

唇语精准识别密语传音成真