微软科学家告诉你人工智能离成为“人”还有多远

发布时间：2019-12-01 浏览数：

人工智能和人工智障只有一字之隔，但从人工智能到人差得显然不止那三个字。

人类常对自己感到不满足。不会弹钢琴；肢体不协调；身高没有185；太过感（理）性；工资没对门小李他老婆的姐夫高等等，这些不会、不能、没有时常令人感到一事无成。可尽管人类有时认识不到自己是多么有灵且美的生物，却不得不在创造人工智能时，重新审视自身那些看似与生俱来的能力。

在不久前微软“微软小冰2019年度研究进展”分享会上，小冰团队的三位科学家就着重分享了人工智能拟人化的过程中，在「对话」「语音」「比喻&联想」三方面的学习成果。

由于篇幅限制，本文将重点分享微软小冰在「对话」和「比喻&联想」方面的内容。

首先是「对话」。微软小冰团队的首席NPL科学家武威认为一个好的对话机器人应该具备三种能力，分别是「学习」、「自主管理」和「连结」。

学习不单单指从人类的对话中抽丝剥茧，学习人类交流的方式，还包括不同专业领域的对话机器人之间互相学习，可以理解为对话机器人之间教学相长。自主管理可以从去年小冰团队发布的“共感模型“中体现。指人工智能在对话的过程中通过策略明确知道“自己”想要如何表达，及在此基础上把控整个对话流程。

武威强调，目前用户对聊天机器人的印象还停留在“我问你答”的单轮对话中，但要使AI拟人化效果更好，则需要认识到聊天机器人与人类对话时是在“交流，而不是回复”。举个例子：

图中加粗的部分是微软的TA-Seq2Seq模型根据自身属性给出的具有信息增量的对话，不仅增加了回复的多样性，同时达到引导交流过程的目的。因此在多轮对话中比较考验AI对上下文的理解，需要考虑目的性，回复什么以及如何引导交流。

该模型在商业最直接的的应用是“AI导购”这么一个角色，即AI通过问问题了解用户意图，然后进行商品推荐。从之前小冰团队在美国和日本的尝试来看，AI推荐转化率达到了68%左右。

3、说起连结则不得不提“多模态交互”。人类在呈现对话时很多样的。拿微信来说，人们对话时不仅会发文字，还有表情包，语音，视频等等，AI想要拟人化，则必须要学会从各种媒体格式的文件中提取信息。

多模态交互指的就是人工智能需要采集互联网上各种格式内容，包括但不限于语音、视频、行为，知识图谱等等，进行理解归纳后，在根据AI自己的属性反向输出这些内容。

我个人认为最有意思的内容是宋睿华博士分享的小冰在比喻和联想方面的进展。

她说想让小冰可以学会比喻是个非常偶然的想法，这个想法来自一段对话：

A：“我在网上看到一种说法，不管什么样的句子，后面加一个'爱情也是这样的'都行得通。“

宋博士：”怎么说？“

A：“举个例子吧，‘人有两条腿，爱情也是这样的'。“

B：“你的意思是说爱情总会走的吗？”

C（不服气）：”那为什么不是爱情总会来的呢？“

这个故事令宋博士印象非常深刻。她意识到比喻这种修辞手法除了能让表达更生动形象，更易达成共识外，更重要的是能否找到合适的角度去解读，让比喻自洽。于是这帮科学家们以这个有趣的故事为灵感，创造了一个”'爱情也是这样的'规则“来训练小冰学习比喻。

既是比喻，就需要有一个本体，一个喻体，以及连接这两个物体的“解释”，也就是使这个比喻自洽的逻辑。

经过分析后，宋博士的团队发现，一般在本体比较抽象，难以理解的情境下，使用比喻的频率更高，而喻体也多为具体，易懂的概念。

Word Embedding 在此处的用法可以理解为将比喻的本体和喻体两个词分别进行头脑风暴，找到更多与之有关的关联词。再将两个词的关联词分别进行关联程度排序对比，从而找到最合适的连接词（解释）。

另外根据前人的研究发现，令人感到耳目一新的比喻，连接词通常是喻体的一个显著特征，却很少有人将它与本体联系起来。

例：“爱情就像葡萄酒，对程序员来说都是奢侈品。”

“我们也发现了，靠近一边的词其实并不是那么的好用，我们发现位与它们俩中间地带的这个词，有一种平衡的词是最好的。比如说爱情像中国足球，像虚幻，或者是爱情像中国足球一样没有未来，这样的一些比喻会给人们一种关联、新颖的感觉。“ 宋睿华补充道。

此外，宋博士还分享了小冰在跨模态理解及联想方面的进展。

跨模态理解和联想大概是小冰拟人化的征途中用户感受最不明显但却能“注入灵魂”的一笔。

宋博士在现场分享了一个北极熊的故事：

人类在听到这个故事时，会不自觉的在脑海中形成画面，因此对于人类来说，不难联想到北极熊遮住鼻子是为了遮住身体上唯一一个黑色的部位企图在皑皑白雪中掩盖自己。

早有研究发现，人类在理解语言是，会自动点亮相关感官，产生联想，从而真正明白语言的含义。但这对机器来说是非常困难的，因为他们不存在“常识”。

还是这个北极熊的故事，人类通过图片，电视，动物园等等途径了解到北极熊外形，并会在接收到北极熊有关的信息时不自觉调动相关的知识和图像。尽管AI也能通过互联网捕捉到相关信息，却无法产生联想。可以理解为，当人类听到北极熊的故事时，看到的是一个视频，而AI“看”到的仅仅是一个名词。

受到该发现的启发，小冰团队的科学家们便开始思考能否让小冰也拥有自己的记忆，在因为“常识”的缺失，无法理解文字意思的时候，调取以往的经验（图像/视频等多媒体）辅助理解。

于是便有了「Inspire-and-Create」架构，这个架构的流程很好理解，就是当AI获取一个故事时，会触发它的联想能力。首先AI会提取其中的的关键词，然后在“记忆库”检索符合上下文的图片或视频，接着经过故事版生成器（可以理解为联想功能和输出内容之间的处理器）加工，最后生成一个跨模态的故事。

通过图文联系，跨模态的方式交互方式能让AI真正理解文本，也能丰富AI与人类交流方式的多样性。

正如我们所见，除了让AI更加智能，科学家们也在赋予AI越来越多的“本能”。不论从人工智能到人要走多少步，这场征途已经启程，拭目以待吧。

【浅黑科技】系头条号签约作者。