谷歌AI打电话刷屏，微软坐不住了

发布时间：2018-05-12 浏览数：

按：这些天，谷歌AI冒充真人打电话在朋友圈大火，可以说谷歌很成功地制造出了一次热点话题。然而，这可忙坏了微软集团的公关们，不得不赶紧发技术声明表示微软早已实现了AI与真人通电话。

美国时间5月8日，谷歌在2018年度开发者大会（Google I/O 2018）上介绍了智能语音助手Google Assistant中新增加的Duplex，它可以自己给饭馆、发廊等商业店面打电话，帮用户预约时间。我们再来看看I/O 大会现场的演示视频：

AI助手与人交流、完成指令已经不是新鲜事。如果你经常跟Siri对话，或者你有一台天猫精灵、小爱同学等智能音箱，你会发现，跟AI对话实在是太费劲。你需要字正腔圆，还要一次次地说唤醒词，无法实现连续对话。

Duplex让人感到惊讶的是：它不仅用自然流畅的语音和电话另一头的人类完成了交流，且对方根本没有意识到打电话来的居然是个[ AI ]。这是因为谷歌Duplex实现了连续对话、加入了人在对话中通常会用的语词助词"emm"、“uha”等、能理解对话的上下文，此外还具备了主动提供语料的功能。

这样的双向对话，一直是微软、苹果、亚马逊、Facebook这些做对话式人工智能的公司们努力的方向。谷歌这次放了个大招，获得了很高的关注，微软显然坐不住了，赶紧站出来说，且慢，我们才是先实现这项技术突破的。

关于这件事，微软在昨天发了一篇技术声明。以下为声明全文：

全双工语音技术（Full Duplex）的意义在于，它能够使“人机交互”进化为“人机交流”。一字之差，价值巨大。

今年4月4日，我们正式在美国和中国同步发布了Full Duplex感官，并预言行业将意识到这一技术的价值，加快向这一方向集中。我们很高兴看到越来越多的同行业者加入。

其实，人类历史上第一次与人工智能进行全双工语音电话，并不是发生在美国，而是发生在中国。我们很荣幸能将这一桂冠奉献给祖国。自2016年8月起，微软（亚洲）互联网工程院通过人类用户主动发起的方式，已让小冰与人类用户累计完成了超过60万通电话。

今天，我们公布其中一通发生在两年前的实际电话录音，将之作为珍贵的资料，奉献给全世界说中文的华人。

而这一技术也已经完成产品落地。两年来，正是在人类的训练下，小冰已实现不局限于任何封闭域，而是可针对开放域进行全双工语音对话。目前，微软已落地的对话场景包括传统电话、VoIP电话和智能音箱设备，微软小冰的车载路试正在进行中。

如果您想要体验Full Duplex全双工语音，不需等待数周，今天就能。在微软小冰已落地的产品中，我们推荐您使用我们与小米合作的米家生态链Yeelight智能硬件产品。在随附的用户真实使用视频中，您将体会到：

• 一次唤醒之后的连续对话

• 微软小冰对用户的预测模型

• 帮助用户轻松完成多重任务

• 小冰的内容创造能力

• 以及最重要的：人机情感交流

人工智能时代已来，让我们持续创新。

微软的声明中，发现了三个关键点：首先，在技术层面上，微软在今年4月4日正式发布了“全双工语音交互”技术；其次，在事件事实上，微软在两年前就实现了AI与人类通电话；最后，在产品落地上，微软的全双工语音交互已经具备多个场景，且搭载全双工语音交互技术的微软小冰已经出现在智能音箱——米家生态链Yeelight智能硬件产品中。

微软所说的全双工语音交互技术（Full-Deplex Voice）与谷歌Duplex的技术框架和实现的功能应该是类似的。

微软对“全双工语音交互技术”的定义是：与既有的单轮或多轮连续语音识别不同，这项新技术可实时预测人类即将说出的内容，实时生成回应并控制对话节奏，能理解对话场景在诉说者/倾听者之间实现角色转变，还可以识别说话人的性别、有几个人在说话。

也就是说，与只能实现单轮的语音的智能语音助手不同，能连续对话的全双工语音交互能实现和人类双向交流，而这种双向交流最常见的场景则是通电话。因为通电话是一个在短时间内持续对话的过程，对通话双方的即时反应要求最高。

在3月28日，微软也在北京召开了媒体交流会，详细介绍过”全双工语音交互技术“。

了解到，全双工语音交互背后主要有两个关键技术：一个是预测模型，实现边听边想；例如，当用户说出一句话的时候，小冰会先回答“嗯，你说”，然后再去完成指令，这样就可以填补完成指令的空白时间。

另一个是生成模型（LSTM），能更好理解场景，自动生成回复。正常的对话都不是单向的一问一答，小冰也会在适当的时候主动提供内容，并且能知道在用户完成指令沉默几秒后自动结束对话。现在运用了全双工语音交互技术的微软小冰的所有回复都是自己生成的，有别于传统的基于模块、搜索来进行的回复。（关于微软全双工语音交互技术可以查看此前报道：《微软发大招：要做智商和情商兼具的语音助手》

在对谷歌Duplex的技术解析文章中也提到，Duplex的核心是一个RNN（循环神经）网络，由TensorFlow Extended（RFX）构建，谷歌用匿名的电话对话数据训练了Duplex的RNN网络，这个网络会使用谷歌自动语音识别（ASR）的识别结果文本，同时也会使用音频中的特征、对话历史、对话参数（比如要预定的服务，当前时间）等等。

输入语音先经过自动语音识别系统（ASR）处理，生成的文本会与上下文数据以及其它输入一起输入 RNN 网络，生成的应答文本再通过文本转语音（TTS）系统读出来。

谷歌用的生成模型是RNN，而微软用的是LSTM，从体验来看，两者实现的效果很接近。跟Yeelight中的微软小冰对话时，能实现一次唤醒连续对话长达20分钟，有适当的语气词，能主动提供预料，主动结束对话。

在谷歌I/O大会的最后一天，获得年度图灵奖的Alphabet新任董事长John Hennessy宣布："在预约领域，谷歌Duplex通过了图灵测试“。也就是说，目前谷歌Duplex与人类展开对话，人类无法识别出其是机器人。这个消息，确实令人振奋。与搭载了微软全双工语音交互技术的微软小冰相比，谷歌Duplex的一大特色是其声音和语调与真人几乎一致，这是他们花费了数月时间采集真人声音训练而成的结果。

谷歌称，今年夏天会开始基于Google Assistant测试Duplex，从预订餐馆、预订发廊、询问节假日的营业时间这样的事项开始。而微软小冰则是将人工智能助手和聊天机器人结合起来，努力进入各个场景，包括传统电话、VoIP电话和智能音箱设备，微软小冰的车载路试也正在进行中。

（Yeelight微软小冰用户体验视频）

微软全双工语音技术已经在做产品落地，却被还在测试中的谷歌Duplex抢占了热点，难免有一点着急。

然而如果我们回想技术发展的历程，我们会记得，1844年，莫尔斯从从华盛顿到巴尔的摩拍发人类历史上的第一份电报，说的是："上帝呀,你究竟干了一些什么?”;1876年，贝尔发明世界上第一台电话，他说的第一句话““沃森先生，快来帮我”成为人类第一句通过电话传送的语音。然而，人工智能助手与人类的第一通电话显然就难以定义了，毕竟我们在人工智能的道路上，还有很长的路要走。