微软最新AI系统！使用云端麦克风阵列，音频转录精度提升22.4%

发布时间：2019-09-17 浏览数：

编 | 王颖

导语：微软利用人工智能转录会议音频，新系统使用云端麦克风阵列。

智东西9月16日消息，微软语音和对话研究小组的科学家最近研发了一个系统，利用内置于智能手机、笔记本电脑和平板电脑中的麦克风来提高音频质量。

这个系统通过智能硬件连接互联网，在云端形成临时的麦克风阵列，可以实时高精度转录音频。研究小组计划在Interspeech 2019年会议上发表相关的研究论文。

会议室的音频无法及时可靠地传达给远程参加会议的各方时，总会令人感到非常无奈。音响效果的差异和干扰总是导致线路另一端接收的音频清晰度降低。

接下来我们一起了解一下，微软设计的云端麦克风系统，是如何提高音频转录的精度和效率的。

一、云端麦克风阵列提高音频精度

微软团队的解决方案是一个端到端系统，首先从不同的麦克风收集声音信号，然后进行波束成形，这种技术能使麦克风阵列对来自特定方向的声音更加敏感。

该系统的主要研究人员Takuya Yoshioka在博客中写道：“我们方法背后的核心思想是利用与会者通常携带到会议现场的笔记本电脑和智能手机等任何与互联网相连的设备，虚拟地在云端形成一个临时的麦克风阵列。”

由一个识别信号之间关系的模型进行编排。在波束形成过程中，信号被反馈到下游的语音识别模块，然后对它们进行合并、注释并发送回与会者。

据研究团队介绍，通过他们的方法，使用云端麦克风阵列，参加会议时人们可以使用已经带到会议现场的手机、笔记本电脑和平板电脑实时高精度转录音频，无需专用的硬件设备。

Takuya Yoshioka指出，这种方法在理论上要比执行上简单，因为不同设备之间的音频保真度存在很大差异，不同麦克风捕捉到的语音信号彼此并不一致。设备的数量及其相对位置在每次会议之间的不一致也增加了麦克风阵列的设计难度。

二、语音转录系统仍需进一步完善

研究人员报告说，在定性测试中，他们的人工智能系统在使用3个麦克风和7个麦克风的情况下，其性能分别比单设备系统高出14.8%和22.4%。

研发团队表示，他们的系统还不完善，偶尔会因为重叠的语音而出错。测试中，有10%的录音中包含不止一个说话者，这时语音转录的错误率为13.6%。

论文中Takuya Yoshioka和他的同事写道：“我们将设备分布在放假各处，获得了更好的空间覆盖率，研究显示了多个异步麦克风在真实场景中满足转录的有效性。”

结语：语音转录技术提升还需加大研发投入

微软在语音转录方面的研究迎合了市场的需求。去年夏天，微软在语音转录方面的研究已经应用在了微软365上，可以自主将语音转换为文本，与会者还能通过视频记录转换文本，使录音文件的文本转录变得更加简单便捷。

几个月后，微软在又OneDrive和SharePoint中推出了音频和视频文件的自动转录功能，进一步提升了文本转换的效率。

语音文本的实时转录，在办公和学习场景中都有很强的实用性。目前，语音转录系统还不完善，转录的准确性还有待提升，在数据、算法等方面还需要更多的研发投入，以满足消费者在不同场景下的需求。

论文链接：https://www.microsoft.commeetingtranscriptionsusingvirtualmicrophonearrays.pdf

原文来自：VentureBeat