脱离现实场景去空谈“识别准确率”都是耍流氓！语音行业真正要做什么？

发表于编程 2016-12-13 10:10 阅读量: 1,395

“对真正做技术的人来说，一项技术最有意思的不是它什么时候能work，而是它什么时候不work。最近我们经常从媒体上看到‘语音识别准确率97%、98%、甚至99%’这样误导性的标题党，但要知道这样夸张的准确率只可能在非常受限的场景下获得。不信就请走进一个正进行着热烈讨论的会议室，掏出手机放桌上，打开语音输入法做个会议记录吧。这样日常真实场景下的语音识别准确率，别说97%，断断续续勉强看懂就不错了。在众多真正有意义的场景下，语音识别的准确率远没有标题上宣传的那么高，脱离现实场景去谈准确率统统都是耍流氓。我认为语音行业的“圈内人”应该更严肃的去思考，我们这个行业的工作在学术研究上到底在哪些方面取得了实质性的进展，在工业应用上到底在哪些方面实实在在的帮助到大众，在商业模式上到底在哪些方面有所创新。“如果问到业界目前热衷于讨论的“识别准确率哪家强？”，来自阿里的智能语音技术总监鄢志杰（花名：智捷）可能会给你一个不一样的答案。

随着语音和人工智能（AI）业务的发展势头越来越迅猛，语音交互无处不在，甚至被视为是人工智能时代的“标配”。就在不久之前，在全球上亿观众观看的2016双11晚会上，除了各路明星闪耀捧场之外，还有一位特别来宾：阿里云人工智能ET。由阿里云人工智能ET参与的一场魔术为晚会增加了科技色彩，也成为这一年双11的热门话题。听懂问题、现场观察和思考、模仿人类的声音回答问题……一系列的行为使得阿里云人工智能ET震惊了全场。探究其背后，这个魔术涉及到数学、语音、图像等技术，数学支撑了扑克牌编码和“猜牌”的原理，语音支撑了主持人与ET的交流、图像支撑了对观众状态的跟踪和识别。

在语音技术方面，则主要涉及了语音识别（分辨出主持人华少的语音并对其进行识别）、语音合成（对华少说话、向现场观众报出猜牌结果）、对话和语言理解（完成整个对话流程）等技术，上述这些技术，都来自于鄢志杰（花名：智捷）所在的阿里云数据事业部智能语音团队研发的智能语音交互（Intelligent Speech Interaction）系统。

本期云栖社区访谈，我们特邀到智捷，一起聊聊语音交互，听听他是如何看待阿里云ET背后的智能语音技术，以及对语音识别领域的产业观察的。

受访嘉宾：

鄢志杰，阿里云数据事业部智能语音技术总监，在加入阿里巴巴前，就职于微软亚洲研究院，任语音组主管研究员。毕业于中国科学技术大学，获博士学位。研究领域主要包括语音识别、语音合成、说话人识别验证、OCR/ 手写识别、机器学习算法等。在语音及文本识别领域顶级学术期刊及会议发表多篇论文，长期担任语音领域顶级学术会议及期刊的专家评审，并拥有多项美国及PCT专利，目前是 IEEE senior member。其研究成果被转化并应用于微软公司及阿里巴巴集团的多项产品中。

下面是云栖社区对鄢志杰的专访实录：

云栖社区：能自我介绍下并谈谈所从事的工作吗？

智捷：基本上我是做语音相关核心技术的研究和产品化工作的，包括语音识别、语音合成、声纹识别验证等等。我们的任务是让机器能听懂人类的语音，同时还能开口说出人类的语言。除此之外，还有一些技术在人机智能语音交互中不可或缺，例如麦克风阵列技术、语音前端信号处理技术、远场语音识别、语音唤醒等等，这些也都是我们的关注点。总之，所有能够去实现极致的语音交互体验的核心技术模块，我们都会去做。

云栖社区：业内的语音技术方向的产品和研发都比较多，你对产业的观察是怎样的？

智捷：语音技术的研究及其应用在历史上起起伏伏已经有很多次了，最近这几年研究上取得了一些突破性进展、应用变得越来越多、宣传上更是随处可见，但放到更长的时间维度上来看，今天不过是从“伏”到又一次“起”而已。不知道大家是否知道，远在1969年，Bell labs的John Pierce曾写过一封公开信《Whither speech recognition?》，彼时也是语音技术如日中天、funding无数、一些应用开始有了苗头的时代。在这封信中，Pierce严厉的批评了当时的语音技术研究和产业状况，并最终直接导致了Bell labs以及美国政府在70年代初的好几年时间减少甚至停止了对这一领域研究工作的资金支持。现在看来，这封信中的一些观点并非完全正确，但其中的一些段落在近50年后的今天读起来，却还是给人“yesterday once more”的感觉：“Speech recognition has glamor. Funds have been available. Results have been less glamorous. General-purpose speech recognition seems far away. Special-purpose speech recognition is severely limited. It would seem appropriate for people to ask themselves why they are working in the field and what they can expect to accomplish.”好消息是，经过几十年的起起伏伏，从总体上讲语音技术还是震荡上升的，并取得了令人瞩目的进展。一方面，今天在某些限定领域、友好的说话人、较高的信噪比、以及有利的信号采集信道下，语音识别已经可以达到很高的准确率；在一些固定风格下，语音合成也可以达到很高的自然度；在一些超大规模的说话人识别任务上，机器凭借其天然的存储优势甚至可以达到超越人类的水平。另一方面，从总体来说，我认为今天的语音技术离大众的期待仍存在明显的差距。对真正做技术的人来说，一项技术最有意思的不是它什么时候能work，而是它什么时候不work。应该跳出“语音识别准确率97%、98%、甚至99%”这样的误导性标题党，思考我们这个行业的工作在学术研究上到底在哪些方面取得了实质性的进展，在工业应用上到底在哪些方面实实在在的帮助到大众，在商业模式上到底在哪些方面有所创新。语音产业历史上的起起伏伏已经证明过，“起”的时候吹过的牛皮越多，“伏”的时候就摔得越惨。

云栖社区：语音技术涉及多方面，语音识别、语音合成等，可否系统的介绍下阿里云ET的语音系统？

智捷：简单来说ET是一个强大的基于模型、数据和计算的学习系统（learning machine）。

首先是模型，就是对你要学习的问题的抽象。在ET的语音技术部分，我们在很多方面使用了大规模的深度学习模型。例如在语音识别上，我们在业界第一个上线了LC-BLSTM模型，这一模型对语音识别的准确率带来了很大的提升，也越来越多的得到了业界的关注的验证。我们还持续在演进这个模型，最新的研究成果是我们将使用这一模型用于语音识别的速度加速了3倍，并同时获得了更高的精度。试想一下在阿里云的大规模数据中心里，3倍的速度提升意味着什么：这意味着省下了2/3的服务器机架、2/3的电力消耗，使得阿里云的客户可以用很低的成本来享受到普惠的语音识别能力。同样在语音合成方面，我们用深度学习模型来解决分词、多音字消歧、停顿预测等等问题，让我们的语音合成系统说出的话既要讲得对（不要念错字）、又要讲得好（抑扬顿挫、清晰自然）。

其次是数据，阿里巴巴是一家数据公司。每天通过我们的几大超级app（手机淘宝、支付宝等）、客服呼叫中心、移动操作系统YunOS、ToB和ToC（天猫魔盒等）的产品，我们有大量的真实数据会被收集到云端。这些数据在匿名化、去除敏感信息后可以被利用并不断迭代进化我们的产品和服务，使得语音识别、语义理解的准确度通过机器学习不断提升。

最后是计算，这也正是阿里云的强项。阿里云在云计算方面的优势使得我们天然拥有一个很好的“云数据、大计算”基础。在这个基础之上，我们构建了专为语音领域机器学习任务优化的软硬件结合的平台，包括硬件、软件、中间件，存储、计算及其之间的互联互通方案等。这一平台可以使得我们可以以极高的效率完成各种模型的实验、参数调优以及生产。对于一个数万小时的语音训练数据库，我们仅需要数天时间即可完成end-to-end的训练和测试。这样的能力极大的释放了我们创新和生产的速度，也意味着我们可以用更少的人力去支持更多的客户，从而大大的降低使用阿里云语音服务的客户所需要付出的成本。

云栖社区：在双11现场舞台这种场景下，ET的语音系统有哪些技术难点？这些难点是如何解决的？

智捷：最大的难点是我们语音识别的目标主持人华少，并不是上述所谓“友好的说话人”。大家知道，华少的语速高达每分钟400字，而我们的ET是用大量普通人的语音数据来训练的，他们每分钟也就200-300字，这就意味着我们的训练数据中根本看不到这么“超人”的语速数据。当天现场还有一个花絮：大家知道，晚会直播节目常常会超时，ET魔术节目排得比较靠后，开始的时间比预定的已经延误了几十分钟，而ET后面紧接着就是马老师的魔术以及零点的双十一启动。

因此，华少和子佼必须以尽可能快的速度完成ET魔术节目，以免影响零点的倒计时。我们后来在回放当天的录音时发现，华少当时明显加快了主持的节奏，因此，“中国好舌头”的语速是对ET最大的考验。

好在我们有一些技术上的准备使得ET承受住了压力，并使得节目顺利完成了。首先，很多眼尖的网友也发现了，华少会以“聪明的ET”作为提醒ET的唤醒词，这就使得ET规避了很多不必要的干扰，能够专心听唤醒词后面的语句；其次，我们的语言理解模块具有较好的泛化性，能够对语音识别的典型错误进行一定程度的容错。应该说，当天华少的语音识别准确率比我们历来的正常水平都要明显低，这在一定程度上是意料之外的。还好语义理解模块非常给力，没有受什么影响并最终完成了魔术，这种容错来自于平时打下的基础，也算是情理之中。

云栖社区：ET可以实时将华少的现场口播翻译成文字，一旦出现错误，ET还会结合上下文语境进行毫秒级修正，这是如何做到的？

智捷：这个功能其实专业的语音识别系统都具备。我们总是基于解码所在的当前时刻向前回溯，并寻找一个最佳的解码路径作为文字输出。当解码不断向前进行时，由于看到的数据更多，回溯的结果也可能会发生变化。这就是为什么大家看到结果会“修正”的原因。

云栖社区：ET背后的语音技术已经应用到产品中了吗？

智捷： 当然。在阿里巴巴集团和蚂蚁金服的好多产品中都有我们的影子。例如手机淘宝、支付宝、钉钉、天猫魔盒、YunOS手机等等。我们提供语音的能力，帮助用户更快的找到商品或服务；在阿里云，我们的能力也被以公有云或专有云的形式输出，帮助生态上的合作伙伴应用于智能客服、智慧法庭、直播、安全等方方面面；阿里云还与YunOS共同成立了I3 (Institute of interactive intelligence)实验室，在互联网汽车、机器人、智能音箱电视、智能家居等方面支持各类IoT产品的语音交互。

我们还在集团和蚂蚁的智能客服系统中承担着语音技术的支持角色。例如今天蚂蚁的95188客服电话，客户的问题首先会被“小蚁”机器人来回答；今天手机淘宝里的客服机器人“阿里小蜜”，你也可以用语音跟它对话，而其中的语音识别能力就是我们提供的；今天集团和蚂蚁客服中心的服务电话都会被我们的语音识别技术记录下来，作为质检的基础及后续数据挖掘和机器学习的原料。

云栖社区：当大规模的语音数据沉淀下来后，是否可以被挖掘利用？

智捷：已经在挖掘利用了。在智能客服中心，语音数据沉淀下来后被用于服务质量的质检，提高客服人员的服务质量和问题解答的一致性；这些数据还被用于让机器自动的去学习用户问题和小二解答之间的关联，从而使得越来越多的问题可以让机器人自动回答。

云栖社区：在你看来，下一步ET的语音技术需要解决什么问题？重点发展方向是？

智捷：语音识别方面重点还是要解决目前“不work”的那些场景，例如应用领域不限定、说话人不友好（口音、说话方式等）、噪音、远场等。

语音合成方面，主要是更佳的、富有变化的情感表现力、篇章级的自然度等，让人长时间听而不感到厌烦。

声纹方面，还需要有较大的基础技术突破来破解目前应用上“食之无味弃之可惜”的鸡肋现状。

交互技术方面，要研究在IoT大潮下如何使得人与机器的沟通在交互上更自然、更易用。

延伸阅读：

ET代表的是阿里云语音识别、语音合成、自然语言理解、实时图像识别、机器学习的综合技术，背后是阿里云飞天操作系统强大的计算能力。阿里云ET不是第一次出现在舞台上，TA曾成功预测湖南卫视《我是歌手》的决赛冠军结果，也曾向人类发起挑战——现场挑战并战胜第50届世界速记大赛亚军。想进一步认识ET，了解TA幕后的智能语音交互技术？可点击访问深度专题：https://yq.aliyun.com/topic/24

-END-

云栖社区

ID：yunqiinsight

云计算丨互联网架构丨大数据丨机器学习丨运维

博客地址：http://blog.yoqi.me/?p=1345

喜欢 0

脱离现实场景去空谈“识别准确率”都是耍流氓！语音行业真正要做什么？

这篇文章还没有评论

发表评论点击取消回复