在大家过瘾的背后,却是产业链条的从业者推动着细微点滴的进步,日积累月,方可见今日之成果。
关于身边的智能音箱背后技术链条你知道多少?
首先我给大家普及一下智能音箱这种新兴的交互方式由哪些技术模块给予支撑的?语音交互过程分为信息输入、信息处理和信息输出三步,相对应的技术便是语音识别、语义分析(自然语言处理)和语音合成。
知识点1:语音识别和语义分析早成红海咯
过去几年,语音识别一直是社会关注的热点,科大讯飞和搜狗在识别准确率上你追我赶;语义分析里的自然语言处理技术也得到了大规模商业化应用,各种智能客服、聊天机器人如雨后春笋般出现,可是唯独语音合成技术无人问津,显得格外冷门。
但是,2018年以来,语音合成市场需求激增。据资深人士说:“很多从事做语音识别的大牛现在转型做语音合成。以一些公司为例,她之前对合成的重视程度不是特别高,但从去年开始,重心逐渐转向合成”。
知识点2:语音合成新蓝海,你是不是又错过了?
语音合成又称文语转换,指通过机械的、电子的方法产生人造语音的技术。过去语音交互市场环境是很多年企业都在做识别,对合成的关注不多。但现在很多领域对声音的合成效果要求越来越高,比如各类智能玩具、家电等都要语音交互。
简而言之,以前的声音只要能用就行,现在随着个性化产品的丰富,更好的展现产品的应用场景和用户体验。定制化的需求越来越高,声音出来之后产品和场景有较好的契合度。
纵观国内语音合成市场,科大讯飞、百度、捷通华声等巨头早已推出语音合成开放平台,提供标准化服务。缪冠琼认为,标准化的服务难以满足个性化的需求,尤其是对于中小企业。
知识点3:标贝科技因为专注,所以ALL IN
作为语音产业链的中游企业,标贝科技的客户来源能很好反映市场环境。缪冠琼介绍,标贝科技客户有两类:一类是大公司,他们一般有能力做合成技术研发,但是欠缺数据,需要找我们来做;另一类是中小企业,今年以来中小企业的定制化服务比较旺盛。他们除了缺数据,算法也没有能力来做(因为研发的成本非常高,有经验的开发人员也非常难找),标贝科技为其提供系统化解决方案。
值得一提的是,标贝科技不仅有合成技术,还有超长自有语音库。据了解,在TTS前端训练集方面,标贝拥有15万句以上韵律训练集,15万句以上分词词性训练集,15万句以上多音字训练集以及10万句TN训练集。
目前,标贝科技已为百度、腾讯、滴滴、搜狗、Rokid、暴风集团、出门问问、Roobo、喜马拉雅FM、猎豹移动等众多客户,建立了长期稳定的合作关系。
你以为语音合成就这么简单吗?答案:NO
标贝科技在完成语音数据产品交付后,服务才刚开始,有一把好的剑,也需要一流的剑客才能用好。语音数据产品在交付后,客户还需要做一些调试和完善,但这个过程如果处理不好,往往让产品体验效果大打折扣。而客户也纳闷:到底是哪里出了问题呢?标贝科技还在充当着指导剑客如何使用好剑的老师傅。
“老师傅”标贝科技近日发布的TTS(语音合成应用的一种)评测系统,正为客户解决这类头痛的问题。
通俗来讲,TTS系统可分为前端和后端两部分,前端完成输入文本的归一化、分词、发音预测、韵律结构预测的处理;后端对声音建模,通过学习得到声音参数合成声音。由于自然语音本身的复杂性和开放性,前端处理部分难度大,需覆盖面广,导致该部分一直是语音合成领域的重点和难点。
具体而言,标贝科技评测系统主要分为三大模块,客观评测、评分评测和综合评测。
1、合成客观评测主要体现为合成系统前端的韵律、多音字、数字符号及分词词性四个模块;
2、合成评分评测,本评测模块以代表不同的TTS用户群体的评测人员,分别以横向和纵向两种不同的方式对TTS合成系统的语音进行评分。目的在于让用户了解自身TTS系统的可优化空间及市场竞争力;
3、综合评测,通过对合成测试集10个领域的样本进行深入分析,从文本分析问题、韵律层级预测问题、声学参数生成问题和声码器问题等方面,对合成系统进行全面综合的剖析,形成评测报告。评测报告分两部分:第一部分是机器合成生成的,用户下载测试集之后,可生成一个在线的检测结果;第二部分是更深度的人工评测。目前全部是免费评测。用户通过评测,可以更深入地了解合成系统的关键问题所在,更高效地达到提升系统合成效果的目的。
估计你读到这里大概知道一只流畅对话的智能音箱来之不易,尽管我们今天只是介绍了第三部分语音合成的标杆性企业标贝科技新产品的TTS测评系统,你仍然能够感受到语音交互是未来,而这种未来是建立在成千上万的研发人员,工程师、以及语音数据服务商日夜耕耘的基础上,他们对你说讲的每一句都悉心听取,他们对你的每一次语音交互都抱着期待的希望,他们对你的每次语音合成再现优质体验都全力以赴...