
1

去年,微软的语音与对话研究小组宣布在Switchboard 对话语音识别任务上达到人类水平,实现里程碑式的突破。
微软技术Fellow黄学东在微软官方博客上称,这意味着,他们创造了一种技术,可以在对话中识别词语,且与人类专业的速记员水平相当。
黄学东在博客上说:“在我们的转录系统达到5.9%的错误率之后,其他研究人员进行了自己的研究,采用了更多参与的多转录程序,将错误率降低至5.1%。今天,我很高兴地宣布,我们的研究团队通过我们的语音识别系统达到了5.1%的错误率,这是一个新的行业里程碑,大大超过了去年实现的准确性。本周末发布的技术报告记录了我们系统的细节。”
以下是微软官方博客的介绍:
Switchboard 是一个电话通话录音语料库,这种语料库用于语音识别系统的研究已经超过20年了。任务包括转写陌生人之间的话题讨论,比如关于体育或政治话题的对话。 我们对基于神经网络的语音和语言模型做了一系列改进,和去年的精确度相比,错误率大大降低。
我们又为改进语音模型引入了 CNN-BLSTM(convolutional neural network combined with bidirectional long-short-term memory)。另外,我们现在在 frame/senone 和词语层面都使用了结合多个声学模型的预测的方法。 此外,我们通过使用整个对话过程来加强识别器的语言模型,以预测接下来可能发生的事情,使得模型有效地适应了对话的话题和语境。
我们的团队使用最可扩展的深度学习软件Microsoft Cognitive Toolkit 2.1(CNTK),用于探索模型架构和优化我们的模型的超参数。此外,微软对云计算基础设施(特别是Azure GPU)的投资,也有助于提高我们训练模型并测试新想法的有效性和速度。
达到人类水平精度,能够与人类对话,是过去25年来微软的研究目标。微软对长期研究的投入,已经在诸如Cortana,演示文稿转换器(Presentation Translator)和Microsoft认知服务等产品和服务上见到了成效。我们的研究团队非常高兴地看到,每天都有数百万在使用的我们工作成果。

工业界和学术界已经有许多研究团队在语音识别方面做得很好,我们的工作从研究社区整体的进步中获益良多。虽然在 Switchboard 语音识别任务上实现5.1%的词汇错误率是一项重大的成果,但语言研究领域仍然面临许多挑战,例如在嘈杂环境下较远的麦克风的语音识别,识别方言,或训练数据有限的特定说话风格或较少人使用的语言的语音识别,这些都仍未达到人类水平。此外,我们在教计算机不仅是转录口语,而且要了解话语的意义和意图方面仍有很多工作要做。从识别语音到理解话语,是语音技术的下一个主要挑战。
微软语音识别最新技术报告:https://www.microsoft.com/en-us/research/wp-content/uploads/2017/08/ms_swbd17-2.pdf
编译来源:
https://www.microsoft.com/en-us/research/blog/microsoft-researchers-achieve-new-conversational-speech-recognition-milestone/
相关资讯
最新热门应用
非小号交易平台官网安卓版
其它软件292.97MB
下载
币交易所地址
其它软件274.98M
下载
iotx交易所app
其它软件14.54 MB
下载
zt交易所安卓最新版
其它软件273.2 MB
下载
币拓交易所bittok
其它软件288.1 MB
下载
u币交易所平台app
其它软件292.97MB
下载
热币全球交易所app官网版
其它软件287.27 MB
下载
多比交易平台app
其它软件28.28MB
下载
币赢交易所app官网安卓版
其它软件14.78MB
下载
toncoin币交易所安卓版
其它软件48MB
下载