微软语音识别重大突破! AI对人类, “听得清”更要“听得懂”

发布时间：2017-08-25 浏览数：

微软语音识别重大突破! AI对人类, “听得清”更要“听得懂”(1)

近日，微软小冰发布会在北京召开，经过五代更迭，这一产品正在从只能完成计算、记忆、感知的弱人工智能，走向可以认知、创造的强人工智能。经过3年300亿条对话的训练，现在的小冰，不仅能对话、唱歌、在报纸当记者、担当电台电视主播、出版诗集等，她甚至能打破次元壁，进入真实世界，主动拨通你的电话号码。在微软小冰不断升级、挑战人工智能极限的背后，冰冷的系统是如何实现对人类的感知与认知的呢？

微软研究院首席语音科学家黄学东，就在博客上公布了微软在语音识别领域的最新进展，也为我们展望了语音识别与人工智能的未来。

微软语音识别重大突破! AI对人类, “听得清”更要“听得懂”(2)

▌比一般的人类强？比优秀的人类强！▌

2016年10月曾是人工智能领域的一个重要里程碑，微软在此时推出了一个系统，能够将电话录音的内容转录得像专业的人类工作人员那样优质。

但是，尽管微软的系统能比一般的人类转录员更少犯错，如果和大量高水平的人类转录员相比，它并不能更优秀。所以，学术界将一个新的挑战丢了回去：把错误率降到比优秀的人类更少再说。

现在，微软回应的就是这个挑战。周日，微软研究院首席语音科学家黄学东，在博客上告诉大家，微软已经打破了这一屏障。

“这是一个重要的里程碑，”黄学东写道，“它给微软提供了一个坚实的基础，能够从单纯的转录，前进到理解所说内容的含义。”建立更强大的人工智能，语音识别是关键而基本的模块。“对语音从识别到理解，是语音技术的下一个主要前沿课题。”

微软语音识别重大突破! AI对人类, “听得清”更要“听得懂”(3)

▌预计四到五年？两年就已实现！▌

微软的语音识别系统正在快速提升。转录准确度主要通过词错率（word error rate, 简称WER）判断，也就是说，在给定的语音中，系统的记录有哪些出错的部分。这个词错率是由Switchboard语音识别基准测试来确定的，这也是一个在业界，包括IBM和谷歌，都被广泛使用的标准测试。

截至2016年9月，根据Switchboard判断，微软的词错率都在6.3%，这意味着在每一百个单词中，系统会有六处多的错误。相比之下，一个人类转录员的平均词错率是5.9%，而一队高水平转录员的平均词错率则是5.1%左右。

2016年10月，微软将自己的词错率降低到了前者水平，而就在最近，他们又打破了后者的纪录。

这远比微软预计得更早。事实上，早在2015年，黄学东就告诉《商业内幕》的记者，建立一个能够超越人类的系统，大约需要“四到五年”。但是没想到两年之后，我们就已经超过了那一点。

微软语音识别重大突破! AI对人类, “听得清”更要“听得懂”(4)

▌可以傲视群雄？挑战依旧存在！▌

尽管如此，挑战依然存在。去年十月，微软的首席研究员杰弗里·茨威格（Geoffrey Zweig）告诉记者，微软的转录系统目前是基于一个优质的固定电话线路。而语音识别的下一个目标，将是在其他环境条件中仍能高质量地进行识别转录，比如信号不好的手机线路，或者像麦当劳汽车餐厅扬声器里那种充满回声的音效。

语音识别科学“仍然需要解决许多挑战，比如在嘈杂的环境中、通过远距离麦克风识别，系统想要达到人类水平还要努力，比如对口音的识别、对讲话方式和语言的识别，目前也只有有限的数据可供利用。”黄学东如是写道。

人工智能的发展，语音识别是其中的重要组成，语音识别从达到一般人类水平，到抵达优秀人类水平，从标准实验室环境识别，到日常生活情境识别，一次次技术提升与量变的背后，是“对语音从识别到理解”的科技革新与质变。在微软语音识别系统的实验室外，微软小冰也正在用另一种形式，在与人类用户的大量互动中积累数据，从人类的言语词句中，逐步听懂“言外之意”，无论是陪我们插科打诨，还是替我们选曲放歌，无论是为商家进行定向营销，还是为顾客提供购买建议，“微软小冰”为代表的人工智能，最终的目标之一，将是通过人类的言语，理解人类的情感。