微软有望夺冠：在语音识别准确率方面处于领先

发布时间：2017-08-23 浏览数：

研究人员正在就如何让机器在各种不同的设定条件下识别人类语言而不懈努力，从实时交互到离线，再到预先录制的语音邮件皆在此列。作为其中的一类重要应用，离线转录甚至可用于政府监管工作。

而在这场机器学习的军备竞赛当中，微软或许在语音转录准确度方面略微领先于IBM。

今年三月，IBM公司研究人员表示，在预先录制的陌生人对于既定话题，诸如运动项目的英文电话交流中，单词识别错误率仅为5.5%。本周，他们在瑞典斯德哥尔摩举行的2017年INTERSPEECH会议上介绍并公布了此项研究的同行评审结果。

上周日，微软公司在其公布的一篇博客文章与技术白皮书中声称在同样的任务条件下，微软方案在这方面略有提升，已经将单词错误率降低为5.1%。

工作原理与IBM类似，其声学与语言建模的算法采用深度学习架构。微软方面表示去年其单词错误率已为5.9%，而这一切都归功于“采用可扩展性最优深度学习软件，微软Cognitive Toolkit 2.1（简称CNTK）以探索模型架构并优化模型的超参数。此外，微软在云计算基础设施方面的投资，特别是Azure GPU，有助于其通过培训模型与测试新想法以提升这方面的执行效率与速度表现。”

在荷兰蒂尔堡大学研究语言识别的计算机科学家Eric Postma在接受本报记者采访时表示，虽然这是“向前迈出的重要一步”，却“尚未成为一项突破”，因为该领域的目标在于达到人类认知级别——就如同能够在鸡尾酒派对中理解同时发出的不同言论，或是掌握更多日常所需常识。

微软公司承认在识别不同口音、语言风格以及语种方面仍有大量工作亟待完成，更不用说理解采集自拥挤房间中的模糊对话内容。

尽管IBM方面可能宣称在此次的数据组中，5.1%错误率已然属于人类认知级别，但Postma就此表示：“这只是种营销性结论，而非科学成果。”

专业从事语音识别并且曾经处理过相同数据组的剑桥大学信息工程师Phil Woodland在接受采访时表示，从20世纪90年代开始此类研究后，“错误率已经大幅度降低”（2004年在对RT-04电话谈话数据组进行理解时，IBM方案的语音识别错误率为15.2%）。

Woodland同时指出，除了识别陌生人之间的谈话外，IBM的新文章中还转录了家庭成员之间较为随意的谈话内容（错误率为10.3%）。相比之下，微软的论文只解决了相对而言“更容易”的问题，当陌生人之间交流时，由于言语更加正式，因此内容更容易理解。

Woodland还表示，由于该项研究结果会根据不同任务而变化，所以很难“确定”人类识别级别的指标。并且，微软算法可能在更难的数据组上表现更差，或者获得与IBM相似的结果。

对于微软算法是否可以应用于其他数据组还尚不明确。研究人员的算法将可能通过调试而专门用于测试电话通话，而不会转向立足媒体档案进行语音搜索或者实现广播数据转录。