“搜狗分身”技术可以让机器以更逼真自然的形象呈现在用户面前,而不是冷冰冰的“机器人”。该技术能通过人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等多项前沿技术,并结合语音、图像等多模态信息进行联合建模训练后,生成与真人无异的AI分身模型。这项技术让机器首次做到逼真的模拟人类说话时的声音、嘴唇动作和表情,并且将三者自然匹配,与真人几乎一致。
以“AI合成主播”为例,用户只需要输入新闻文本,AI合成主播就能用和真人一样的声音进行播报,而在播报的过程中唇形、面部表情等也能与真人主播完全吻合,效果惟妙惟肖。记者在现场看到,主持人邱浩的身影出现在屏幕上,他播报了一段新闻。不过,事实上他没播报过这段新闻,说话的是“AI合成主播”。
据搜狗公司智能语音事业部总经理王砚峰介绍,“搜狗分身”技术是搜狗人工智能的核心技术之一,诞生于搜狗“自然交互+知识计算”这一人工智能理念之下。
搜狗公司CEO王小川表示,AI合成主播的诞生,将为媒体生产端带来无限想象空间,是智能时代大幅提升新闻生产、传播效率、新闻价值的有效手段。
据搜狗方面介绍,未来“搜狗分身”技术将在娱乐、医疗、健康、教育、法律等多个领域提供个性化的内容,显著提高社会生产和服务效率。