微软新记录: 语音识别实时翻译演示文稿

发布时间：2017-08-22 浏览数：

微软新记录: 语音识别实时翻译演示文稿(1)

微软的语音识别系统已经达成与人类抄写的错误率水平相仿

微软昨天宣布，其会话式语音识别系统的错误率达5.1％，符合专业人员抄录员的错误率。

微软去年认为，其5.9％的错误率已经达到了人性化水平，但IBM研究人员要求系统达到5.1％，略低于5.5％的最低字错误率。

最近微软的测试与去年的一样，Microsoft的系统是针对“配电板”语料库进行测试的，这个数据集包括美国口音的陌生人之间的大约2,400次双面电话对话。这个测试涉及到在讨论一系列话题的人之间进行谈话，从体育到政治，包括更加正式的对话

与去年的测试不同的，微软没有将其系统与另一个称为CallHome的数据集进行测试，包括家庭成员之间的开放式和更随意的对话。 CallHome的错误率都超过了人机和机器的两台交换机测试。

尽管如此，微软在调整其神经网络声学和语言模型后，确实在去年的“Switchboard”结果中削减了12％。

微软技术研究员黄雪芹解释说“我们引入了一个额外的CNN-BLSTM（卷积神经网络结合双向长期记忆）模型，用于改进声学建模。另外，我们的方法来组合来自多个声学模型的预测现在在帧/语音和单词“

“此外，我们通过使用对话会话的整个历史来加强识别器的语言模型，以预测接下来可能发生的事情，有效地允许模型适应对话的话题和本地语境。”

尽管有新的挑战，微软不得不承认机器难以识别不同的口音和口音风格，并且在嘈杂的条件下会表现不佳。

而Google今年早些时候宣布其系统实现了4.9％的字错误率，尽管目前还不清楚它使用了什么测试。