微软小冰的星辰大海：会对话，唱歌，比喻，还有“人类”想象...

发布时间：2019-11-24 浏览数：

11月24日消息 11月21日，微软小冰团队在北京微软大厦举办了Research Workshop活动，科学家团队带来了小冰2019年度最新科研进展及其应用，及对业内技术研发趋势的展望。被邀请参加，在这个微软大厦中的会议厅中，笔者再一次感受到了小冰产品背后的技术原理和对人工智能独特理解的高追求目标。

微软小冰的星辰大海：会对话，唱歌，比喻，还有“人类”想象...(1)

报道，微软小冰在核心对话引擎方面，经过了经过检索模型、生成模型、共感模型的历次技术迭代，2017年就推出了全双工语音交互感官的上线和产品落地，目前正在发展的面向未来的多模态交互感官，融合了全双工语音交互、实时视觉与核心对话引擎的全新交互感官。小冰也能实现用户与人工智能同时边听边说边看的交互体验。

微软小冰的星辰大海：会对话，唱歌，比喻，还有“人类”想象...(2)

点对了科技树，微软小冰变得越来越像一个人了。

微软小冰首席科学家宋睿华介绍称，第七代微软小冰已成为全球最大的跨领域人工智能系统之一，产品形态涵盖了社交对话机器人、智能语音助理、人工智能内容创作和生产平台等。在全球多个国家，微软小冰单一品牌已覆盖6.6亿在线用户、4.5亿台第三方智能设备和9亿内容观众，在交互场景拓宽的情况下，微软小冰与用户的单次平均对话轮数（CPS）达到了23轮。

微软小冰的星辰大海：会对话，唱歌，比喻，还有“人类”想象...(3)

实际上，微软小冰2019年度研究进展活动更像是小冰的科学家们对外公布的一场学术报告会，向等介绍了小冰背后的研发情况，包括NLP自然语言处理、听觉语音学研究、计算机视觉和图形学，还有多模态生成技术等等。

微软小冰的星辰大海：会对话，唱歌，比喻，还有“人类”想象...(4)

▲微软小冰首席NLP科学家武威（左）、微软小冰首席语音科学家栾剑（中）、微软小冰首席科学家宋睿华（右）

微软小冰在创新方面获得了一定成绩，了解到，小冰团队已经在AAAI、IJCAI、ACL、KDD、ACM MM、WSDM、EMNLP、WSDM等上发表了48篇论文；申请了72项专利，包括全双工、Avatar Framework和多模态方面的领先强大专利；2019年亮点包括发布3篇ACL，1篇IJCAI，4篇EMNLP，1篇InterSpeech，1篇ACM MM长论文，赢得了CLSW 2019杰出论文奖《“Love is as Complex as Math”: Metaphor Generation System for Social Chatbot》，意思是“爱就像数学一样复杂”：社交聊天机器人的隐喻生成系统。

微软小冰的对话研究

微软小冰的星辰大海：会对话，唱歌，比喻，还有“人类”想象...(5)

微软小冰的基础就是对话，在自然语言处理方面，微软小冰首席NLP科学家武威带来了《Towards a Self-Complete Chatbot》（朝向自我完备的对话机器人）的演讲，其认为一个能够自我完备的对话机器人应该拥有以下能力。也就是说小冰在对话语句上要能够补充所缺乏信息的能力。

微软小冰的星辰大海：会对话，唱歌，比喻，还有“人类”想象...(6)

能力一，学习——能够从人类的对话中学习怎样去说话。机器人之间可以互相学习，就像人类之间一样。

在检索模型方面，从最简单的LSTM模型到最近的预训练的模型，质量得到非常大的飞跃。而背后代表这个模型从单轮做到多轮，从浅层次表示、匹配到深层次、宽度表示和匹配的发展进程。

微软小冰的星辰大海：会对话，唱歌，比喻，还有“人类”想象...(7)

在基础架构方面，可以把用户的输入和回复候选都表示成向量，通过计算向量的相似度来度量这个侯选是不是一个合适的回复。将输入和回复侯选在每一个词上都进行交互，然后得到一个充分的交互矩阵，然后再把交互的信息从这个矩阵中通过神经网络抽取出来，变成一个匹配的程度。

微软小冰的星辰大海：会对话，唱歌，比喻，还有“人类”想象...(8)

多轮对话交互从单轮对话延伸出来，把一句话表示变成多句话表示，额外把多句的表示糅合成上下文的表示，然后再进行匹配。还可以做细腻度的交互，比如让上下文中的对话与回复候选进行交互，然后再把这些交互信息通过一个神经网络整合起来，变成最后的上下文和回复侯选的匹配程度。

在生成模型方面，逐步做到引入外部知识，从单一模态的回复到可以兼容各种各样的，包括声音、视觉、语言这种模态的生成。通过小冰提出的外部无监督训练话题模型，产生一些话题语料，然后在生成模型中通过话题注意力机制，去遴选话题语料，最后再在解码的过程中单独做出一个话题的生成概率，让话题能够更容易出现在回复中。多轮对话中可通过一种无监督方式，对对话上下文进行补全，然后进行回复。

模型之间也可以互相学习，两个检索模型在训练过程中互为师生，互相交流。在每一次迭代的时候，一个模型都把它从数据中学到的知识传达给另外一个模型，同时又从另外一个模型中接触到它的知识，然后这两个模型互相学习，最终希望能够得到共同的进步。

能力二，自主管理——对话单轮表达。把控整个的对话流程。

在自主管理中，微软小冰对表示，一个有趣的应用是第六代小冰发布的共感模型，包含了回复生成模型、策略决定模型。

共感模型把微软小冰从原来基于上下文直接产生回复的模式，变成了从上下文到决策，然后再根据这个决策来决定我说什么的模式。

微软小冰的星辰大海：会对话，唱歌，比喻，还有“人类”想象...(9)

其中的策略就是表达意图，可以是话题，也可以是情感等等，当然也可以是意图、话题、情感组合，通过策略组合，可以产生非常多样的、复杂的对话流程。微软通过引入meta-word的概念，代表了属性组合。然后通过变换属性值就可以生成各种各样的回复。

能力三，连结——对话机器人连结散落在世界上的多模态知识。

连结牵扯到多模态交互，输入可以是对话、语音、文本知识、多媒体，输出也可以是对话、语音、多媒体，这其中很重要的问题是机器人如何能够把多模态的知识连结在一起，进行消化、吸收，最终把它有机的组合起来，变成自己的一个输出。

以上是对话机器人这些年来，甚至可能是未来一段时间整个的研究与发展。而微软小冰再加上横线发展，包括从检索模型（重用人类已有话语），到生成模型（合成回复），再到共感模式（自主把握对话流程）。纵线和横线交错发展成对话机器人发展的绚烂画卷。

获知，与其他模型不同的是，微软小冰的共感模型会根据上下文把控对话的流程，不仅要知道上下文是什么，还要根据重要性进行对话的组合，怎样引导对话，来达到有组织有目标的交流，这一般是有很高情商的人类才能做到的。

微软小冰唱歌的研究

微软小冰的星辰大海：会对话，唱歌，比喻，还有“人类”想象...(10)

网友可能也好奇，小冰为什么要做唱歌呢？微软小冰首席语音科学家栾剑做出了相关解答。

从前小冰在2015年提出语音聊天功能，声音非常生动活泼，符合小冰个性，后来逐步增加了儿化音、中英文混杂朗读、讲儿童故事、各种情感表现，发现在语音合成领域的一些大方面内容已解决。微软小冰希望寻找更有挑战的课题来做，唱歌就选做了目标，主要有三个目标：

第一，唱歌的门槛比说话高。

第二，情感表达上更加丰富激烈一些。

第三，它是一个很重要的娱乐形式。

微软小冰的星辰大海：会对话，唱歌，比喻，还有“人类”想象...(11)

但唱歌和说话有什么不同呢？唱歌的很多技术是从语音合成沿袭过来的，据分析它有三大要素：

第一，发音，唱歌吐字发音一定要清晰，和说话一样。

第二，节拍，是通过一种节奏的变化来表现艺术的形式，像我们普通的说唱，比如“一人我饮酒醉”说唱的形式，可能没有其它的旋律，主要就是靠节拍的组合来表达。

第三，旋律，每个字的音高会不太一样，如果音高唱错、跑调，这首歌肯定就没法听了。

所以，这三大要素构成了唱歌最基本的元素，当然还可以叠加很多的技巧，比如颤音、气音之类的。

而机器学习唱歌有两种方式：一种是通过模仿人声去学习，第二种就是通过曲谱方式，通过简谱或者五线谱，配上歌词。简谱涵盖了三大要素，既有歌词，歌词会有发音元素，也会有节拍和音高。前者是简单且广泛的形式，但机器在判断读音时会有误差，后一种反而是便捷且干净的输入。

微软小冰的星辰大海：会对话，唱歌，比喻，还有“人类”想象...(12)

接下来就是唱歌的合成演绎了。可以通过单元拼接的方式，基本思想是建立一个单元库，包括声母和韵母等，通过录制不同字母的发音（不同长度、不同音高）采集，最终加上信号处理方法修改，完美匹配效果，将这些单元串接起来，拼接得到最后的音频。这个方法虽然简单，也可保留采集最佳音质，但单独发音和连续发音区别还是很大，生成歌曲不太自然。

获知，在语音行业里大家熟悉使用的是隐马尔可夫模型，把所有录音数据提取出声学参数，里面可能包括能量谱、时长、音高，然后去建一个模型，要合成的时候，就根据想要的发音到模型里面预测，预测出声学参数，然后通过声学参数、声码器把音频的波形重构出来，方法灵活。不过其中最大的关键点是声码器，参数还原声音过程中，就会有音质的损失。

但微软小冰基于发展需求，一开始就选择了第二种方法，使用模型从乐谱里面采集出三大要素，分别对声谱参数、节奏序列、音高轨迹用三个模型分别建模，采用DNN神经网络，将预测参数通过声码器生成波形。在最新模型里，复杂结构已经用到了卷积神经网络、attentions、其他的残差连接之类技术，使用多个模块，使得三个参数同时建模变成可能，这样生成的波形在自然度和流畅度会得到明显的提升。

微软小冰的星辰大海：会对话，唱歌，比喻，还有“人类”想象...(13)

在唱歌清唱方面，是严重缺乏数据，绝大部分的数据是混杂的、伴奏的音轨。微软小冰团队在进一步研究如何在伴奏音频中把人声的音高提取更好的模型，从而丰富小冰演唱的风格。

微软小冰学会“比喻”

小冰已经学会了写诗、画画、唱歌等操作，那么小冰是否可以创造比喻呢？对于人类而言，比喻是一种生动表达，用于解释抽象的、难以理解的概念。微软小冰首席科学家宋睿华对表示，比喻重要的是能不能找到一种适合小冰的通用规则。

微软小冰的星辰大海：会对话，唱歌，比喻，还有“人类”想象...(14)

输入是本体，而喻体的输出是解释。本体一般是抽象的，比如说爱情，而喻体是具体的。而这两个概念之间的联系通过用Word Embedding来表达它，将其变成一个向量，经过降维之后，投影在这个二维的空间上。通过自然语言形态的连接词将其结合起来，组成一个比喻。连接词可以在Bing搜索找到句子，并经过NLP分析之后确定关联的相关性。

微软小冰的星辰大海：会对话，唱歌，比喻，还有“人类”想象...(15)