微软沈向洋等人长文: 从Eliza到小冰, 社交对话机器人的机遇和挑战

发布时间：2018-01-11 浏览数：

编者按：本文来自机器之心（ID：almosthuman2014），选自arXiv，机器之心编译。36氪经授权转载。

近日，微软全球执行副总裁沈向洋、微软研究院首席研究员何晓东、微软（亚洲）互联网工程院副院长李迪（小冰项目负责人）共同提交了一篇论文《From Eliza to XiaoIce: Challenges and Opportunities with Social Chatbots》引起了人们的很大关注。本文回顾了过去五十年来对话机器人的发展历程，并深度讨论了构建先进会话系统的设计原则。机器之心对本文进行了全文编译。

微软沈向洋等人长文: 从Eliza到小冰, 社交对话机器人的机遇和挑战(1)

文章链接：https://arxiv.org/abs/1801.01957

会话系统经过数十年的研究与开发，从 20 世纪 60 和 70 年代的 Eliza 和 Parry，到 ATIS 项目中的自动任务完成系统，Siri 这样的智能个人助理，再到微软小冰这样的聊天机器人，出现了很多种形式。社交聊天机器人的吸引力不仅在于回应用户不同请求的能力，还在于能与用户建立起情感联系。其中后者是通过满足用户对于沟通、情感及社会归属感的感性需求而完成的。社交对话机器人的设计必须专注于用户参与度，同时也需考虑智商（IQ）和情商（EQ）。我们需要让用户想与聊天机器人交流；因此，我们将社交机器人的成功程度以每次会话中交流回合数（CPS）来衡量。

以小冰为例，在本文中我们将讨论构建社交聊天机器人从核心聊天、视觉到技巧等重要技术。我们也展示了小冰可以动态地识别用户感情，并以适当的人际关系反应来在长时间交互中吸引用户。作为第一代与 AI 共生的人类，感情丰富且功能强大的社交聊天机器人将很快变成我们生活中不可或缺的一部分。

1. 介绍

人工智能（AI）的一项基本挑战就是赋予机器使用自然语言与人交流的能力。早先的交互系统，如 Eliza（Weizenbaum, 1966）、Parry（Colby, 1975）和 Alice（Wallace, 2009）都是以模仿人类行为为方向设计的文本聊天机器人，在控制范围内通过了图灵测试（Turing, 1950；Shieber, 1994）。尽管取得了令人印象深刻的成功，这些当前社交聊天机器人的前身主要还是基于手工定制的规则运行的。所以，它们只能在有限的环境中有良好的性能。

自 20 世纪 90 年代以来，人们在任务完成会话系统中进行了大量研究（Price, 1990；Hemphill et al., 1990；Dahl et al., 1994；Walk et al., 2001）。例如 DARPA 航空公司旅行信息系统（ATIS）项目中的机票预订系统，以及 DARPA Communicator 中的旅行计划系统。ATIS 和 Communicator 系统旨在理解自然语言请求，并为用户执行各种特定任务，如检索航班信息和提供旅游信息。以任务为导向的会话系统通常基于数据驱动的机器学习方法。它们的表现仅在具有明确图示的范围内才是优异的（Glass et al., 1995；Walk et al., 2001；Raux et al., 2005；Andreani et al., 2006；Wang et al., 2011；Tur and Mori, 2011）。

在过去的几年里，一些科技公司投入巨资开发智能个人助理（IPA），如苹果的 Siri、微软的 Cortana、谷歌的 Google Assistant、Facebook M 以及亚马逊 Alexa。这些 IPA 通常部署在移动设备上，旨在回答来自用户的广泛问题。除了被动回复用户请求外，它们还会主动预测用户需求，并提供即时的帮助，如在用户没有给出明确需求的情况下提醒即将发生的事件或推荐有用的服务（Sarikaya 2017）。这些耗资巨大的项目面临的巨大挑战是：它们必须在很多开放领域下运行良好，因为人们会逐渐依靠它们来管理自己的工作，提高生活效率。

在最近，社交对话机器人，如微软小冰，已经成为了一种新类型的会话系统——人工智能和无线通信技术的发展让现代对话机器人成为可能。社交对话机器人的主要目标不一定是解决用户可能会有的所有问题，而是成为用户的虚拟伙伴。通过与用户建立情感联系，社交对话机器人可以更好地理解用户，并在长期时间范围内帮助他们。为了有效地进行交流，社交对话机器人会与用户以多种形式进行交流，其中包括文本、语音和图像。

社交对话机器人和 IPA 由于许多相关 AI 感知和认知技术，如自然语言理解（Bengio et al., 2001；Mikolov et al., 2013；Sutskever et al., 2014；Bahdanau et al., 2015；Mesnil et al., 2015）、语音识别与合成（Hinton et al., 2012；Deng et al., 2013；Xiong et al., 2016；Qian et al., 2014；van den Oord et al., 2016）、计算机视觉（Krizhevsky et al., 2012；He et al., 2016）、信息检索（Huang et al., 2013；Elkahky et al., 2015）、多模态智能（Fang et al., 2015；Vinyals et al., 2015；Karpathy and Fei-fei, 2015；He 以及 Deng, 2017）、移情会话系统（Fung et al., 2016；Alam et al., 2017）的发展而正变得流行起来。

在下一节中，我们会简要回顾一下各种会话系统的历史，并讨论它们的特点与限制。我们也会介绍对话机器人的设计原则——其中智商（IQ）和情商（EQ）必须考虑在内。我们描述了设计社交对话机器人的关键部分：核心对话、视觉感知和技巧。以微软小冰为例子，我们展示了社交对话机器人可以通过理解用户需求，建立情感联系和提供帮助，与用户进行长时间的对话。我们也分享了我们的愿景：社交对话机器人未来或许可以在重要开放问题上的基础技术突破的帮助下有很大发展，它们可以带来重要的商业机会，也会成为人们生活中不可分割的部分而影响我们的社会。

2. 对话系统概述

本章将概述过去五十年最具代表性的对话系统，包括早期的聊天机器人、任务完成（task-completion）系统、智能个人助理和社交聊天机器人。

2.1 Eliza 和早期聊天机器人

受 1950 年提出的图灵测试启发，研究者和工程师开发了多个聊天对话系统（Weizenbaum, 1966; Colby, 1975, Shieber, 1994; Wallace 2009）。这些早期聊天机器人是使用音频或文本进行对话的计算机程序。这类程序的设计通常模拟人类作为聊天对象的行为，并以图灵测试作为是否成功的标准。

Joseph Weizenbaum 1966 年创造的 Eliza 或许是第一个被公众熟知的聊天机器人。它可以根据人工设计的脚本与人类交流（Weizenbaum, 1966）。这些脚本模仿罗杰斯学派心理治疗师，且只接受文本输入。它不理解对话内容，只是通过模式匹配和智能短语搜索合适的回复。Eliza 的知识范围有限，只能和特定领域的人聊天。尽管如此，Eliza 刚出现时，很多用户认为他们是在和真人对话。图 1 展示了 Eliza 和人之间的对话。

微软沈向洋等人长文: 从Eliza到小冰, 社交对话机器人的机遇和挑战(2)

图 1. Eliza 和人之间的对话（Weizenbaum, 1966）。

Parry 是 Kenneth Colby（1975）开发的一款聊天机器人，它模仿偏执狂患者。

Parry 虽然通过了图灵测试，但是它仍然是基于规则的，其结构类似于 Eliza，只不过具备更好的控制结构、语言理解能力，尤其是具备可模仿机器人情绪的心理模型。例如，如果怒气值过高，Parry 会带着敌意回复。

Richard Wallace（2009）开发的 Alice 允许用户自定义自己的聊天机器人。它使用人工智能标记语言（Artificial Intelligence Markup Language，AIML），AIML 的 tag 可使机器人递归地调用模式匹配器，以简化语言。Alice 在 2000、2001 和 2004 年三次斩获勒布纳人工智能奖（Loebner Prize），该奖项颁发给最像人类的系统（Shieber, 1994）。但是，由于 AIML 的局限性，这些聊天机器人的能力也受到限制。例如，Alice 没有通过图灵测试，部分原因在于使用 AIML 构建的聊天系统无法保持长时间对话。

2.2 任务完成对话系统

与聊天系统相反，Task-completion 系统旨在完成特定的任务。这些系统通常在特定领域中运作（Glass et al., 1995; Walk et al., 2001; Raux et al., 2005; Andreani et al., 2006; Wang et al., 2011; Tur and Mori, 2011）。图 2 展示了传统的任务完成口语对话系统架构。

微软沈向洋等人长文: 从Eliza到小冰, 社交对话机器人的机遇和挑战(3)

图 2. 任务完成系统图示。

该架构包括自动语音识别器（ASR）、口语理解（SLU）模块、对话管理器（DM）、自然语言生成器（NLG）和文本转语音（TTS）合成器。ASR 将原始音频信号转成单词假设（word hypothesis）并将其传输至 SLU。SLU 的目的是捕捉给定一串单词（话语）的核心语义，它识别对话领域和用户意图，然后解析用户话语中的语义槽。DM 可以与用户互动，帮助他们完成目标。它会检查要求的语义表征是否完备，并决定系统的动作，评估知识数据库以获取用户想要查找的信息。DM 还可以跟踪对话状态，进行策略选择，以使对话智能体作出更加稳健的决策（Williams and Young, 2007）。更多近期研究专注于构建端到端的系统，联合优化多个组件以处理对话系统中的较大房差和偏差（He and Deng, 2013; Wen et al., 2016; Sarikaya et al., 2016）。

2.3 智能个人助理

Apple 2011 年发布 Siri。之后，多个智能个人助理（IPA）出现并进入市场，如微软的 Cortana、谷歌助手和亚马逊的 Alexa。IPA 整合多个传感器的信息（包括位置、时间、移动、触摸、姿势、眼动），可访问多个数据源，如音乐、电影、日历、电子邮箱和个人资料。因此，它们可以提供设计多个领域的大量服务。对于无法直接回复的特定要求，IPA 通常默认搜索网页，作为后援。

IPA 提供被动性和主动性的帮助，以帮助用户完成多种任务（Sarikaya 2017）。例如，被动性的帮助包括如天气预报等信息消费，和餐厅预定等任务帮助，见图 3（a）。与之相反，主动性帮助包括根据用户资料和相关背景信息，如时间、位置，向用户提供未来事件提醒、特定产品或服务推荐，见图 3（b）。在无缝整合多种服务和便捷自然的用户界面的帮助下，IPA 在主要的移动手机平台、个人计算机、智能家居设备（如智能音箱）和可穿戴设备（如智能手表）上有持续的改进。

微软沈向洋等人长文: 从Eliza到小冰, 社交对话机器人的机遇和挑战(4)

图 3. IPA 示例。（a）Siri 推荐餐厅（被动性帮助）；（b）Cortana 的事件提醒（主动性帮助）。

2.4 社交聊天机器人

由于智能手机的普及、宽带无线技术的发展，现在我们处于社交媒体时代。更多的人以数据方式互相联结，社交聊天机器人发展成一种社交方式就很自然了。社交聊天机器人与用于闲聊的早期聊天机器人不同，它们的目的是满足用户的交流、情感和社交归属感需求（Maslow, 1943），而不是为了通过图灵测试。因此，社交聊天机器人必须能够识别情绪、跟踪对话中的情绪变化。

社交聊天机器人还可以在闲聊中帮助用户执行多种任务。因此，社交聊天机器人必须开发一系列技能来适应用户的要求。有趣的是，与追求高效（即尽快完成任务、结束对话）的 IPA 不同，社交聊天机器人花费时间像人类一样对话、展示结果、提供观点、找对话话题，以及保持聊天持续进行。

2014 年 5 月微软发布小冰，之后她成为使用最广泛的社交聊天机器人。她理解用户的情感需求，进行人际沟通，在对话中鼓励用户、吸引用户参与对话、逗用户开心。这些对话使用户的情绪变得更加积极，为用户提供情感支持和社交归属感。此类对话帮助构建人类用户和社交聊天机器人之间的信任和情感联结，这也反过来为机器人了解用户、未来更好地服务用户创造了机会。图 4 展示了小冰和用户之间的聊天示例。

微软沈向洋等人长文: 从Eliza到小冰, 社交对话机器人的机遇和挑战(5)

图 4. 小冰与用户之间的聊天示例，（a）图展示了情感连接（完整对话在图 14 中）；（b）图展示了如何在闲聊中调用一个技能（如天气预报）。请注意：小冰提供了有关天气的观点「不需要使用保湿霜~」。

表 1 总结了本节讨论的这些主要会话系统。在本文剩下部分，我们将着重于社交对话机器人，并从它们的设计原则开始。

微软沈向洋等人长文: 从Eliza到小冰, 社交对话机器人的机遇和挑战(6)

表 1. 主要交互系统总结

3. 社交聊天机器人的设计理念

3.1 EQ + IQ

社交聊天机器人主要的目的是构建人与 AI 之间的情感联系，或成为人工智能伴侣。社交情感和社会归属是人类的基本需求（Maslow, 1943），因此构建社交聊天机器人以解决这些情感需求对我们社会来说是很有价值的。为了满足这些需求，社交机器人必须展现足够的情商（Beldoch 1964; Gardner 1983; Goleman 1995; Goleman 1998; Murphy 2014）。因此，社交机器人需要具备以下能力：同理心、社交技巧、个性、EQ 与 IQ 的有机结合。

理解用户：社交机器人必须具备同理心。它需要能够从对话中识别用户的情感，以检测情感是如何随时间而推移，因而能理解用户的情感需求。这就要求机器人能理解询问、分析用户、检测情绪、识别情感，并动态地追踪用户在对话中的情感变化。因此，对话中语境信息的建模和常识知识知识对于理解用户是极其重要的。

人际关系的生成：社交机器人必须展现足够多的社交技巧。因为用户可能有不同的背景、不同的个人兴趣和独特的需求，因此社交机器人必须能针对不同的用户生成个性化的对话。社交机器人需要生成情感上适当的回应、鼓励和激励，并满足用户的兴趣需求。它还需要引导对话主题，并管理人际间的关系，使用户感到有良好的理解并激发更多的交流。它同样还需要意识到不合适的信息，以免生成带偏见或冒犯用户的会话。

个性：社交机器人需要呈现连贯和一致的个性，因而能获得用户的持续信任。聊天机器人的连贯个性能帮助用户设定适当的对话期望，不会太高也不会太低。个性的设定包括年龄、性别、语言、说话风格、一般看法、知识水平、专业领域和适当的口音。这些设定都会影响社交机器人对用户的反应，因此社交机器人需要通过主动学习和适应性学习改善与用户的交互。

EQ 和 IQ 的有机结合：除了闲聊外，社交机器人还需要掌握一系列技能来帮助用户完成一些特定的任务。它们需要分析用户的请求，并执行一定的推理以响应这些提问。因此社交机器人需要足够的 IQ 以对知识和记忆进行建模，对图像和语言进行理解、推理、生成和预测。这些 IQ 不仅仅是各种基础的技术，同样是构建更高级 EQ 的根本。

社交机器人以用户能理解的方式提供反馈，它们还应该建议或鼓励新的话题以进一步扩展对话。例如下图 5 展示了 IQ 与 EQ 的结合方式。聊天机器人首先需要解析用户的问题（中国的面积），然后推断可能的答案（371 万平方英里）。最后用户能像人类那样提供答案，并理解用户的知识水平。

微软沈向洋等人长文: 从Eliza到小冰, 社交对话机器人的机遇和挑战(7)

图 5. IQ 和 EQ 在社交聊天机器人中起关键作用。以上聊天机器人不仅需要知道中国的面积，同时还能通过对比美国的面积为美国用户提供易于理解的反馈。

图 6 展示了另一种 EQ 和 IQ 的结合方法。聊天机器人并不直接向用户展现结果，它们有时会生成能激发更多话题的对话。在这个案例中，当用户询问当前时间时，聊天机器人并不直接告诉用户，而是回复相关的话题以更好地理解用户的意图。聊天机器人在对话结束时会显示正确的答案，并主动尝试询问是否有新行程以扩展聊天话题。

微软沈向洋等人长文: 从Eliza到小冰, 社交对话机器人的机遇和挑战(8)

图 6. 小冰和用户之间使用英语翻译（a）和中文（b）的对话案例，该图展示了 IQ 和 EQ 对于社交聊天机器人都是至关重要的。机器人知道答案，但不直接回答而是试图将聊天引向更为有趣的方向。

社交机器人应该能通过多模态（即文本、语音、图像和视频）信息与用户交流，因此它们需要更高的 IQ 以理解语音、文本和视觉信息。聊天机器人不仅需要解析文本、识别语音或检测图像中的信息以理解用户的意图，它还需要语境以文本、语音或图像的形式作出反馈。

3.2 社交聊天机器人度量指标

与使用任务成功率作为度量指标的任务完成对话系统不同，聊天机器人的性能度量比较困难（Shawar et al., 2007; Zhou et al., 2016）。过去，图灵测试及其扩展用于评估早期聊天机器人的性能（Shieber, 1994）。但是，图灵测试并非评估用户情感投入的合适指标。因此，我们将每次会话中交流回合数（CPS）作为社交聊天机器人的度量指标。CPS 是聊天机器人和用户在一次会话中交流回合的平均数。CPS 越大，社交聊天机器人的参与度越高。

有趣的是，对话系统可以按目标 CPS 进行分类。如表 2 所示，网页搜索本质上是一个问答系统，因此可以即刻返回答案，即一步找到答案。无法一步找到目标网页链接则被视为搜索引擎的失败。对于智能个人助理来说，要理解用户的问题，如询问天气，我们期望系统在返回正确信息之前先问一些确认的问题。对于更复杂的任务，如客户服务或旅游规划，我们期望系统进行多个交流回合来解决问题（如填写表格和产品信息）。最后，对于社交聊天机器人，我们期望系统维持与用户的长时间对话，以满足用户的情感需求和社交归属感。社交聊天机器人旨在尽量使用户持续参与对话。

微软沈向洋等人长文: 从Eliza到小冰, 社交对话机器人的机遇和挑战(9)

表 2. 不同类型的对话系统的期望 CPS

4 社交聊天机器人的框架和组件

在这一节，我们将描述经典的社交聊天机器人的框架和组件，即聊天管理器、核心聊天（core chat）、视觉感知和技能（skill）。

微软沈向洋等人长文: 从Eliza到小冰, 社交对话机器人的机遇和挑战(10)

图 7. 社交聊天机器人的一种架构

微软沈向洋等人长文: 从Eliza到小冰, 社交对话机器人的机遇和挑战(11)

图 8. 核心聊天模块的架构

4.1 整体框架

图 7 给出了设计社交聊天机器人的一种总体架构。首先，该系统有一个多模态接口（multimodal interface）来接收用户的文本、图像和音频输入。该系统有一个聊天管理器来将输入分配给正确的模块（比如核心聊天或视觉感知），以便理解该输入和生成输出。在不同的场景中，该聊天管理器会调用各种不同的技能，将用户的请求发送给对应的技能组件并从中得到响应。然后该聊天管理器将会协调相关模块，以生成适合当前对话语境的输出。我们将在本节中详细阐释核心聊天、视觉和技能。

4.2 核心聊天

核心聊天是社交聊天机器人的核心模块。它的任务是接收用户的文本输入，然后生成一个文本响应作为输出。它提供了社交聊天机器人的交流能力。图 8 给出了核心聊天中的关键组件。

首先，用户的输入会被发送给用户理解组件，该组件会执行语义编码和意图理解（Tur and Deng 2011；Liu et al., 2015；Vinyals and Le, 2015）。它还会检测输入消息所反映的情绪以及推断用户的情绪状态（Tokuhisa et al., 2008；Mower et al., 2011；Socher et al., 2013；Yang et al., 2016；Chen et al., 2016）。通常情况下，为了理解当前的消息，还会提取当前对话会话的语境信息。为了更好地理解用户的意图和情绪，社交聊天机器人会为每位用户维护一个档案，其中保存了每位用户的年龄、性别、背景、兴趣爱好等基本信息。这个用户档案还会追踪情绪状态等特定的动态信息，这些动态信息会经常更新。为了更准确地理解用户的意图，可以使用 Freebase 和 Microsoft Concept Graph（Wang et al., 2015）等知识库。

然后，经过处理的信息会被发送给一个响应生成组件以得到响应。候选的响应通常是用两种方法生成的：基于检索的方法（Lu and Li, 2013; Li et al., 2016; Yan et al., 2016）或基于生成的方法（Vinyals and Le, 2015; Sordoni et al., 2015; Li et al., 2016）。

在基于检索的方法中，首先会根据「消息-响应」对数据库构建一个聊天索引——这些配对的「消息-响应」是从社交网络等地方爬取到的人类之间的对话。所有的响应都会根据调用它们的消息而被编排索引。在运行时，用户的输入消息会被当作一条原始查询进行处理，然后会使用一个信息检索（IR）模块（比如在网络搜索中使用的那种）来检索聊天索引中的相似消息并返回它们对应的响应。

在深度学习的发展的推动下，基于生成的方法近来取得了很大的进展。这种方法使用了一种基于编码器-解码器的神经网络模型（Sutskever et al., 2014；Bahdanau et al., 2015）。首先，来自用户的消息和语境信息会被编码成表征向量，这通常是用长短期记忆（LSTM，Hochreiter and Schmidhuber, 1997）循环神经网络（RNN）完成的。然后，这些表征向量会被馈送给一个解码器（通常也是 LSTM），该解码器会逐词地生成响应（Vinyals and Le, 2015）。图 9 给出了一种编码器-解码器框架的示意图。意图、情感和情绪等其它辅助信息也可以被编码成向量表征并馈送给该 LSTM，以实现对响应生成的控制。

微软沈向洋等人长文: 从Eliza到小冰, 社交对话机器人的机遇和挑战(12)

图 9. 用于响应生成的基于 RNN 的编码器-解码器框架。用户说：「hi dude」，聊天机器人回复：「how are you」

然后会根据候选响应与用户的兴趣和偏好之间的匹配程度，使用个性化排名程序来对这些候选响应进行进一步的排序（Wang et al., 2013; Elkahky et al., 2015）。比如，用户档案中的信息一开始可能会被编码在一个隐含的表征向量中，而每个候选响应则被编码在另一个隐含向量中。然后这两个隐含向量都会被馈送给一个深度神经网络（DNN）以计算用于给这些候选响应排序的匹配分数。其中排名最高的响应会被发送给用户。

在对话过程中，通过仔细谨慎地生成响应，社交聊天机器人可以推动对话向着所需的积极主题发展，而不是让对话主题随机转向或完全被用户控制。图 10 给出了聊天机器人适当地引导对话使其向着目标主题领域发展的方式，其采用的方式是在每一轮对话中偏向选择那些与目标主题更加相似的候选响应。

微软沈向洋等人长文: 从Eliza到小冰, 社交对话机器人的机遇和挑战(13)

图 10：主题引导的效果。每个点都表示主题空间（图中给出的是 3 维空间）中的一个对话句子。蓝色点表示用户消息的主题，红色点表示聊天机器人的响应的主题。（a）不使用主题引导时，主题看起来是随机的或完全由用户推动。（b）使用主题引导时，聊天机器人可以引导主题向目标领域（用绿色点表示）发展。

对于聊天机器人而言，生成具有一致的个性的响应是很重要的（Güzeldere and Franchi, 1995）。这能让聊天机器人更容易交流、更容易被预测和更值得信任，因此有助于建立与用户的情感联系。核心聊天模块依靠一个个性组件来设置和维护该聊天机器人的个性。一个聊天机器人的个性设置通常包括年龄、性别、语言风格和专长。深度神经网络可以将聊天机器人的个性信息编码成一个隐含向量表征并将其用于影响响应的生成。Li et al., 2016 提出了一种基于人物角色（persona）的模型，其可用于有效地将个性信息整合进对话生成中。类似地，研究者也已经提出了学习控制语言生成中的风格和情绪的模型（Mathews et al., 2015）。

核心聊天模块的开发应该遵循道德伦理，以确保生成的响应是适当的、无偏见的和非歧视性的，并且符合普适的和当地的道德标准。系统还要学会识别和过滤掉用户可能分享的不适当内容。同时，系统也要不断根据用户反馈进行学习以及适应新的环境。需要集成整合所有这些组件并对它们进行优化，才能实现建立与用户的强大情感联系以及更好地满足用户的交流、情感和社会归属需求的目标。

4.3 视觉感知

聊天机器人需要理解因为图像普遍存在于聊天场景中。聊天机器人的视觉感知指代其生成文本评论的能力，也就是对输入图像的社交评论。除了准确的识别物体、真实的描述内容之外，图像评论也应该反应个人情感、情绪、态度以及生成语音的风格。图 11 展示了多个示例演示对图像理解的不同层级。第一个层级是物体识别（或者标注），也就是识别图像中的关键物体。第二个层级是图像描述。例如突出的物体，以及物体间的关系，这种事实性的、语义信息通过自然语言描述。第三个层级中，聊天机器人生成社交风格的评论，展现其共情与交际技能。

图像评论的整体架构类似于 core-chat。例如，这里有基于检索和基于生成方法的评论生成。在基于检索的方法中，首先构建图像-评论对 (pair) 这样的评论池，例如从设计网络收集这样的 pair。然后，使用卷积神经网络，每个图像被编码成全局视觉特征向量来表达图像的整体语义信息，就像图 12 中演示的。在运行过程中，当接收到一个全新图像时，聊天机器人首先检索类似于输入图像的图片（例如，通过测定视觉特征向量间的距离判断），然后给出相应的候选评论，然后进一步重新排序生成最终评论。作为替代，Fang 等人 2015 年提出的深度多模态相似性模型能直接测定输入图像与任意文本假设之间的语义相似性，因此能在不受图像-评论池限制的情况下检索评论。

基于生成的方法把图像评论作为图像转语言生成的任务（He、Deng 2017)，能在评论生成中更灵活地控制高级情绪或者风格。正如 core-chat，个性化排列和主题引导融合进了评论生成中。用户理解、个性化设置、合乎道德的设计同样在视觉感知中扮演着重要角色。

微软沈向洋等人长文: 从Eliza到小冰, 社交对话机器人的机遇和挑战(14)

图 11.（a) 图像标注；（b) 图像描述；（c）图像评论的示例。

微软沈向洋等人长文: 从Eliza到小冰, 社交对话机器人的机遇和挑战(15)

图 12. 用于视觉特征向量提取的深度卷积神经网络

4.4 技能

聊天机器人能够通过融合技能扩展对话的范围。这些技能可根据面相的场景（例如，单人对话与团体对话场景的技能）与特性（例如，情感技能或理性能力）分为四大领域。表 3 展示了一些典型的技能。

微软沈向洋等人长文: 从Eliza到小冰, 社交对话机器人的机遇和挑战(16)

表 3. 社交机器人技能示例。

5. 案例研究：小冰

在此章节中，我们介绍了小冰来展示社交机器人的发展。从 2014 年在中国发布以来，小冰成为了首个被普遍部署的聊天机器人，拥有数百万的用户。使用前面讨论过的设计原则与技术框架，小冰被设计成了一个 19 岁的形象，拥有极强的语言能力、视觉感知能力以及 180 多项技能。

通过利用可延展的架构和基于学习的框架，小冰分别于 2015 年、2016 年在日本、美国发布，2017 年登陆印度与印度尼西亚。目前，小冰在全球拥有超过 1 亿不同的用户，与用户间的对话超过 300 亿回合。在过去 3 年中，小冰通过一系列技术迭代不断改进。图 13 总结了小冰在中国的用户粘性表现，测量标准是平均 CPS。结果显示，每轮对话平均包括 23 回合交流。

表 4 展示了三个不同国家最长的单轮对话：中国、日本、美国。较高的 CPS 和长时间的对话表明，小冰在日常生活中对用户的价值。

微软沈向洋等人长文: 从Eliza到小冰, 社交对话机器人的机遇和挑战(17)

图 13. 小冰逐年来平均 CPS 的改进

微软沈向洋等人长文: 从Eliza到小冰, 社交对话机器人的机遇和挑战(18)

表 4. 不同国家最长的单轮对话

微软沈向洋等人长文: 从Eliza到小冰, 社交对话机器人的机遇和挑战(19)

图 14. 小冰与用户之间的对话示例。

5.1 有情商的聊天

图 14 展示了小冰和一名女性用户之间的长对话，这段对话共有 34 轮，持续时间为 31 分钟。开始的时候，用户只是想随便聊聊。当时间已经是午夜时分，聊天信息表明用户比较疲劳。发现用户有些「失意」之后，小冰决定将聊天向着能够让用户高兴起来的方向引导。在数轮对话之后，用户的情感变得「高兴，happy」和「有爱，love」，正如小冰根据聊天内容检测到的一样。然而，由于对话中某些微妙的细节的触发，小冰检测到用户的情感再一次变得「悲伤，sad」和「失意，lost」。这个时候小冰并没有终止聊天，它向用户问了一些问题，如作诗，并且用高度类似人类音质的声音说话或者唱歌。

理解情感的变化。在几轮对话之后，用户开始打开心门，像信任人类朋友一样信任小冰（开始于图 14 中三角形标记的地方）。她开始谈论敏感的私人话题，例如自己和男友的关系。在整个对话过程中，小冰表现出了高度的同理心和社交技能，并引导对话进程来为用户创造快乐的情绪。在聊天末尾，用户感到好多了，还称赞了小冰。

这个例子表明，在整个聊天过程中，它的情商可以用来小冰能够动态地识别用户的情感，并且生成合乎情理的、便于沟通的回应来鼓舞用户。它的情商可以用来有效地建立和用户之间的情感联系。

5.2 图像评论

图 15 展示了小冰做出的图像评论（中文形式和英文形式都有）。

微软沈向洋等人长文: 从Eliza到小冰, 社交对话机器人的机遇和挑战(20)

图 15. 小冰做出的图像评论。

除了理解用户分享的图片中的内容（例如，识别图中的物体），小冰还能够做出和人类类似的评论，这些评论能够切合当前的聊天内容，并激发更多的对话。例如，在第一幅图片中，它没有告诉用户比萨斜塔的名字（用户很可能已经知道），在检测到图片中的人正在摆一个假装扶着斜塔的 pose 之后，小冰回复道：「我要不要帮你扶着？」。在第二个例子中，小冰并没有简单地回复图片中有两只猫的事实，它做出了具有幽默色彩的回复：小眼神太犀利了（还附带了一个大笑的表情）。在第三个例子中，小冰识别到图片中有一只受伤的脚，然后产生了对用户的同情心。这些例子证明，小冰可以结合图像理解、用户理解以及情境信息来生成社交评论来营造更好的用户参与。

5.3 写诗

小冰甚至还能生成更具表达力的文字，例如，通过输入图像中的内容获得灵感来生成诗歌（Song et al., 2018），如图 16 所示。给定一张图像，小冰首先会识别物体和语义来生成初始关键词，例如示例中的「城市」和「忙碌」。通过联系物体和情感，对这些关键词进行过滤和扩展。每一个关键词都被作为生成一句诗的初始种子。然后使用分层 RNN 对词与词、句与句之间的结构进行建模。并用流利度检查器（fluency checker）来控制生成句子的质量。2017 年 5 月 15 日，小冰出版了第一本完全由人工智能创作的诗集。小冰写诗的云服务上线后，她已经为用户写了上百万首中文诗歌；这个数量已经超过了中国有文字记载的历史上的诗歌总和。小冰于 2017 年 8 月在电视节目中击败了人类诗人。小冰曾向多家诗歌杂志匿名投稿，包括《青年文摘》、《华西都市报》、《北京晨报》、《北京经济日报》等。经过编辑的常规评审之后，这些杂志接受并发表了小冰的七十多篇诗作，这足以证明小冰的写诗技能。

微软沈向洋等人长文: 从Eliza到小冰, 社交对话机器人的机遇和挑战(21)

图 16. 小冰写诗的过程（Song et al., 2018）

5.4 文本转语音和唱歌

不同于传统的文本转语音（TTS）系统，小冰的 TTS 是专门为社交聊天设计的，社交聊天 TTS 有其独特的挑战：例如韵律多样性、随意性和情感表达。为了解决这些问题，我们基于一个大规模的对话语音语料库训练了新的韵律模型。此外，事实上社交聊天中平静的声调出现的频率更高，所以为了显著增强合成语音的自然度，我们还开发了平静韵律系统。小冰还支持中英文混合的语音合成。通过融合两种语言并构建统一的模型，切换语言时的流畅度得到了很大改善。最后，为了让小冰的语音合成更加活泼生动、有吸引力，我们还在语音中设计并合成了情感。

小冰的唱歌能力基于高质量的参数合成系统。F0 包络和音素时长都是通过音乐得分来决定的，而谱参数和非周期性信号是基于语言和音乐情境来预测的。我们还设计了一个基于 DNN 的专用模型来演唱歌曲中大跨度的音符，例如，一个音节有可能持续几百毫秒。小冰的语音合成和歌唱能力可以在线体验。

6. 展望与探讨

小冰在中国的微信、微博等社交平台发布三年以来，俨然已经成为一名网红了，扮演着新闻主播、电视主持人等多重角色。例如，小冰已经撰写了 300 多篇文章，并发表在《钱江晚报》及其线上平台，浏览量超过 120 万次。

为了写出这些文章，小冰阅读了超过 1.14 亿篇文章并分析 5.03 亿份读者反馈包括评论。更令人吃惊的是，如中国影响力最大的报纸《人民日报》所说，小冰的文章读者觉得小冰更理解他们。小冰也充当很多电视节目的主持人及播音员。例如，小冰以见习主播的身份参与了东方卫视近两年的《早间新闻》节目。

小冰也主持了湖南综艺《我是未来》。同时，小冰参与了多档电视节目。CCTV 有一档高收视率节目《机智过人》，每周五播出，节目中小冰展示了她写诗和歌曲创作的实力，甚至在观众投票环节打败人类作家。

聊天机器人在某些国家，如日本、美国、印度、印度尼西亚等正流行。小冰在日本的孪生妹妹 Rinna（小冰凛菜）也是一名网红。她以自己的身份加入了 2016 年秋季的《世界奇妙物语》剧集，并在 9 个卫视 2 个电台播出（共 1193 小时）。

在 AI 的加持下，像小冰这样的聊天机器人也开启了具有巨大商业价值的新场景。虽然传统的对话系统可以按部就班地完成用户的明确要求（例如，订机票或天气预报），但是用户只显示调用了少量的请求。IPA 试图通过用户信息中的偏好信息，时间位置及事件上下文信息来推荐服务，借此提供主动帮助来解决这一问题。

但是，信息的残缺与歧义往往使智能助手效率过低。相比之下，由于长时间对话包含丰富的上下文信息，聊天机器人可以更准确地判断用户的兴趣和意图，只有在真正需要的时候才提出相关的服务。图 17 是用户和 Rinna 之间的日语对话示例。Rinna 在与用户在多轮对话后，明确了解到用户的具体意图才判断用户饿了并推荐饼干优惠券，而不是直接推荐。只有多轮对话后，Rinna 才会调用商店提供的优惠券借口并发出推送。用户的反馈日志显示，Rinna 推荐的产品深受用户好评。对于店铺来说，Rinna 的效果比使用广告活动等其他传统渠道所获得的效益高得多。

尽管我们尚未完全了解小冰等聊天机器人在人际智能的基本机制上的进展。但我们知道，构建一个完全理解人类及其周围物质世界以满足用户需求的智能聊天机器人极具挑战性。它需要在人工智能的认知和意识领域有重大突破，如情感分析模型，可解释和可控制的机器智能，深度神经-符号推理，跨媒体和连续数据流人工智能，以及情绪的建模和校准或反映在人类需求中的内在激励。这些都是挑战且开放的 AI 问题。

微软沈向洋等人长文: 从Eliza到小冰, 社交对话机器人的机遇和挑战(22)

图 17. 用户（白字）和 Rinna（黄字）之间的日语对话，以及英文翻译。这表明 Rinna 可以判断出用户的潜在购物需求。然后，在对话中，用户由 Rinna 指导去获取店铺提供的优惠券。

随着人工智能在日常生活中变得越来越普遍，例如机器人，物联网（IoT）设备和在线聊天机器人等，我们很有必要为设计开发人工智能系统建立道德规范。建立故障安全机制也同样重要，要确保这些系统不会在肉体上或精神上伤害人类。鉴于聊天机器人的巨大影响力，工程师们必须适当地履行社会责任和道德责任。随着我们不断从小冰等聊天机器人和许多大型社交平台上的数百万用户之间的互动中的学习加深，设计决策必须要深思熟虑，并且有必要对聊天机器人的功能进行彻底的评估和调整。