微软亚研院院友会: 人机交互的机会与瓶颈在哪里?

发布时间：2017-11-14 浏览数：

微软亚研院院友会: 人机交互的机会与瓶颈在哪里?(1)

10月19日下午，微软亚洲研究院在微软大厦举办第二届院友年度大会。众所周知，微软亚洲研究院被称为人工智能的“黄埔军校”，其院友都作为最重要的力量，活跃在各大AI巨头和创业公司里。例如这一场以“人机交互”为主题的分论坛中，就集结了微软亚研院副院长周明、今日头条人工智能实验室主任李航、小鱼在家创始人兼 CEO 宋晨枫、百度技术委员会主席吴华以及清华大学教授徐迎庆。

了解到，参加分论坛的几位大咖，均在当前最热门的领域、最热门的公司就职，他们分别介绍了目前负责的主要工作，还围绕“人机交互”这个基本话题做了展开讨论，详细说明了目前对话式人机交互发展的现状，以及接下来要解决的关键问题。

以下为现场速记，在不改变原意的前提下，做了删减精编：

| 每一轮人机交互都是革命

在北京最美好的季节里，我们微软亚洲研究院热烈欢迎各位院友参加本次院友会人机交互论坛。

我是周明，是微软亚洲研究院刚成立的时候自然语言组的负责人，现在也管一些自然语言、人机交互、知识图谱有关的研究，先说说今天的主题：

人机交互这个技术，从键盘、鼠标、图形、用户界面、手势、触摸到自然语言、语音一路走来，未来我们可以用脑机结合，你想什么电脑就感知什么。作为计算机发展的里程碑的事件，每一次新的人机交互都革命性地推动了信息技术的发展。现在热门的智能搜索、语音助手、机器人、智能音箱、智能汽车、物联网等重要产品里，自然便利和无所不在的人机交互成为产品的瓶颈问题，自然人机交互技术在深度学习和大数据时代的最新进展，面临的挑战，新的技术方向，以及有关的研发经验，引起了大家广泛的关注。

下面，有请嘉宾上台，我在这里按照姓氏笔画介绍一下。

首先有请李航博士，李航是原微软亚洲研究院主管研究员、原华为诺亚方舟实验室主任，现今日头条人工智能实验室主任，他是著名的机器学习和自然语言专家。第二位嘉宾宋晨枫，是小鱼在家创始人兼 CEO，他是智能家庭助手，和家庭陪伴机器人的市场开拓者。下一位吴华，吴华是我老乡，也是湖南人，曾任 ACL 程序委员会主席，现任百度技术委员会主席，自然语言处理负责人，著名自然语言处理专家。最后一位徐迎庆，是教育部长江学者奖励计划特聘教授，现任清华大学信息艺术设计系主任、清华大学终身学习实验室主任、清华大学无障碍发展研究院副院长。

| AI，有时候是唉声叹气的“唉”

我想先代表在座的各位问你们，你们现在都干什么工作了？能不能做一个自我介绍。

宋晨枫：

我是2004年-2007年在西雅图 XBox 团队。那个时候其实就和咱们的微软亚洲研究院有非常非常多的合作，那个时候跟我们的徐老师在人脸识别，包括卡通有很多的合作。所以今天非常高兴，又回到微软大家庭。

十年过去了，一直在创业，过去的三年是在做小鱼在家，主要是家庭智能助手，其实我们这个品类在过去三年也有过不同的尝试。但是，直到亚马逊在今年4月份也推出了同品类的产品 Echo Show，所以说现在基本上我们做的产品品类会被定在智能音箱这个大的品类里面。无论是智能音箱，还是智能家庭助手，我们内部管它叫做对话式电脑。

相信在鼠标、键盘时代之后，触屏时代之后，自然语言交互作为一种新的交互方式将会把人们获取信息服务的方式变得更加的便利，去降低所有人获取这些信息服务的门槛。小鱼在家也是希望能够把最先进的人工智能，还有自然交互的技术落地于家庭，能够让家里面的孩子、老人，妇女，他们可能对咱们今天的科技，还有这种手机时代的信息获取还没有那么熟悉，能够让他们也非常便利的进入到咱们的信息时代，咱们新的内容时代。我们同时也会借用未来的交互方式去重新定义在家庭场景下的内容和服务。

李航：

我是2001年-2012年在微软亚洲研究院，2012年加入华为，当时在香港成立一个诺亚方舟实验室，其实就是华为人工智能方向的实验室，一个多月以前离开华为，加入今日头条。

大家问为什么加入今日头条，我先回答这个问题。

华为也是一个非常了不起的公司，大家知道华为70%的业务是在海外，规模也非常大。诺亚方舟实验室是公司人工智能领域的主要研究部门，我们会有很多优秀的同事，做得很好。今日头条也是一个非常了不起的公司，大家知道，成立了五年，已经规模发展的非常大，一会儿我可以介绍一下技术上的挑战，有意思的问题。对我来说，今日头条这块人工智能，特别是自然语言处理，机器学习方面很有意思，希望能够跟头条的同事一起把这个问题解决，这是我主要考虑的因素，一个多月以前加入头条，加入以后确实有很多有意思的问题，感觉每天都很充实和愉快。

吴华：

我是2001年-2003年在微软亚洲研究院，在周老师那个组，之后我去了东芝，2010年去了百度，但是我一直在做 NLP 相关的工作，我起初是做百度翻译，后来负责 NLP 的技术，所以，我们建了很多 NLP 的方向，比如说问答，现在比较火的对话系统，还有理解生成，生成和摘要等等。现在整个NLP的技术在百度内部是支持几乎所有的产品线路。我们有一个技术平台，每天在内部调用的量大概是2000多亿。我最近比较关注的一个方向是对话系统，所以跟今天的主题也很相关。现在在对话系统这块，我们在外也提供了一个理解和交互平台，主要是面向具体任务完成类的一些对话。

我现在花的主要精力是在研究通用对话系统，为了解决计算机用自然语言和人交互的问题。

徐迎庆：

今天的话题是深AI未来，虽然我知识不多。但是我知道这个是人工智能的意思。

这个AI对我们来说，有时候是唉声叹气的“唉”，因为我们离人工智能比较远。人工智能是千军万马，万马奔腾，滚滚红尘，我们做的是一骑红尘妃子笑，无人知是荔枝来。我们做的是让大家吃荔枝舒服一点，好吃一点，开心一点，我们是做这个事的。

其实现在我们也在考虑所谓做智能人机交互，大家都提人工智能，你要不谈点智能好像你没文化一样。首先，这方面面临的挑战是什么？

第一，其实人机交互里面，人的这种自然的交互行为，和物理空间的这种状态的变化是多通道的、非精确的，而且是动态多样的。它没有一个非常稳定的模态。第二，计算机在人机交互里面，人要告诉计算机，它们作为认知的主体，如何理解人的自然交互行为，意图和问题，并且精确的反馈，这其实是一个很大的挑战。

关于自然感知的准确性，实时性和鲁棒性还有很大的提高。还有就是说，人的生理变化，心理变化都会影响他今天交互的状态，以及周围的环境变化怎么适应，这是我们面临的挑战。

研究的内容是我们要做的。现在因为我一直认为，大学的实验室和企业的实验室应该有所不同。企业的实验室应该是做靠谱的事，偶尔发点疯，做一点点不靠谱的。大学的实验室应该是以不靠谱为主，以探险为主，做一点点靠谱的。

我们现在希望能够在几个方面开展一些工作：

第一，是研究如何让计算机能够自适应感知人类的自然行为；

第二，自然习得运动技能和生理的自然变化如何让计算机理解。

第三，这个过程要流畅，用户不能受交互行为的干扰，我发一个命令它半天才感知出来，或者我发一个命令，它不理解。

我的实验室在做几件事情，第一是跟情感计算相关的，我们刚刚开始。2001年我在微软发了一篇文章，叫做Emotion Detection from Speech to Enrich Multimedia Content，当时我还带着研究生。那篇文章，当时是这个领域的第二篇，发完之后没有人理，突然这一两年火起来了。

当时我们做每一个研究都要找人讲背景，当时请的是北京电影学院台词课的老师给我们讲课，人说的语音的讲法非常不一样，他讲了“你好”两个字，当场说出了140多种不一样的情感。不同情感下的“你好”是完全不一样的，但是我们的语音识别出来的都是你好。我们当时能够在40毫秒检测出你的四种情绪之一。另外，当时我的研究生标了1000部电影，他说徐老师你把我害了，我以后不再看电影了。

我们希望把人的情感，微表情，微动作怎么去结合？还有身体语言，人讲话75%、80%都是身体语言，为什么审讯犯人要把犯人绑起来，他们是怕他反抗。但是从我的角度来讲，你绑起来，没有人身体语言之后，说话就不自然，什么话一问你就说出来了。这个可能是他们没有想到的。第二，多通道的智能人机交互装置，我们现在开始做基于嗅觉的交互，主要是还有一个基于手机的行为。这里有两块，一块是说未来三五年可能是物联网搜索的世界，换句话我搜索不是在输入关键词，关键词还会保留，但是我拿一个苹果，一张照片，电子鼻一闻，它说这个和国光苹果的相似率是85%，和富士相似率72%，和黄香蕉是30%，和苹果酱是百分之多少，我们希望做这样的东西。

另外，中医的望闻问切，现在“望”和“问”小鱼在家都能够解决了，“切”很多手腕，闻这件事情还没有解决，如果望闻问切真的解决了。中医的家庭化也就解决了。所以，我们现在希望能够在“闻”这方面帮着做点事。基于手机的行为计算，当你走动的时候，我们希望能不能从这里侦测出走路的步态和姿势，特别是对老人的护理，青少年的护理。这方面非常之难，但是我们有希望和一些公司开始做一些探讨。

另外，因为我们的专业，虽然我来自于美院，但是我们的研究生来自所有的专业，是一个交叉学科。所以我们希望能够做一些新的传感器的东西。

这个就是最近在做的。

| 接下来要解决精确语言理解的问题

周明：沈向洋讲了一个叫做自然语言理解，从感知到认知，到推理这样的一个非常好的话题。沈向洋在上面讲，懂语言者，得天下。我当时听完以后觉得搞自然语言的春天来了。但是实际上我们搞语言理解跟认知智能是一脉相承的。认知智能无非就是语言理解，知识、推理，然后解决问题。

现在想问在座的各位专家，你们认为语言理解也好，或者是更广义的人机交互也好，现在到了什么程度了？从研究上有哪些机会？有哪些瓶颈，产业上有哪些机会和瓶颈？

徐迎庆：

我觉得确实不懂，自然语言发展到什么程度了，但是我现在也在用一些设备，小鱼在家我买了两台，阿里送了一个天猫精灵，我都在用，以前我觉得是非常不屑的。除了小鱼在家以外，因为我家里有老人。后来我用起来觉得非常有意思，他们那个智能程度非常智能。比如说前两天天猫精灵突然自己唱起歌来了。我学生开玩笑说天猫精灵谁让你唱歌，闭嘴。天猫精灵说，知道了，下面播放歌曲闭嘴。这个非常惊讶，真的有闭嘴这首歌，唱的非常好听。

吴华：

我是一直做自然语言处理的，但是很遗憾的是，虽然是自然语言的春天来了。但是我们其实受到非常大的挑战。刚才沈老师说的，实际上理解问题没有解决。其实举个简单的例子，我们现在一直想说，计算机能跟人自然的交流，用自然语言，但是我们在特定的领域，在指定的一个领域，比如说天气，或者你问天气的方式都有很多种。一个很小很小的问题我们都没有解决，就是自然语言理解的问题，精确理解的问题没有解决。

这也是阻碍现在所有的人机交互的硬件的一个发展的技术。所以，我们接下来实际上要做的就是把具体领域的精确语言理解的问题解决。然后不要依赖太多的标注数据，这个是我们要解决的一个问题。

所以，我们现在叫它模式匹配理解，不是精确理解。接下来，如果这个问题能够有效的解决，我们可以往更通用的聊天的角度去做。我认为聊天实际上是通用领域的，是贯穿整个人机交互始终的一个基本纽带。因为现在我们做的事，基本上是把特定领域的任务完成类的、聊天以及解答问题这几种类型分开做的。但是实际上聊天应该是说，它是执行任务，解答问题的基础。你在特定领域里面回答问题的时候，有可能涉及到聊天，可能小鱼在家也涉及到这样一些问题。所以，我们要从通用领域的角度去探索聊天这个里面需要的技术。

比如说它需要去了解对话之间，人和人之间对话，人和机器之间对话的逻辑，就是它们内在的关系是什么，为什么可以海阔天空的聊。还有人的常识是怎么获取的，甚至特定场景下我们需要什么样的常识，以及人的记忆等等这些。我们发现在聊天的过程当中，有很多问题，比如说人会在聊天的过程，对人、事物、事件都会有一个主观的评判，我们怎么建模人的主观倾向，这些都是没有解决的问题。接下来是学习的问题，其实人是在有一定常识的基础上，有一定理解机制的基础上，你是通过什么机制进化的，进一步强化自己。我理解进化机制有两方面，一方面人是有一个阅读理解能力，也就是通过读书，获取知识，然后武装自己，使得自己越来越像一个专家。还有一个跟环境之间交互，怎么通过对方的反馈学习进化的。其实自然语言的路还有好长好长。

李航：

我简单介绍一下我对人机交互的想法。大家可能知道，人得到信息80%多是从通过视觉，大概10%多是听觉，剩下很少的百分比是其他的感官。所以，对人来说，得到信息主要是通过眼睛看。那么人对外产生影响的时候，大概70%、80%的信息是通过语音对话发生执行的。从人的角度来说，输出主要是语音和语言。我们要做人机交互，从计算机的角度来说，理解人的对话是一个最核心的部分了。当然我们都知道，其实我们人就是通过五官整体感知、认知的。计算机反过来也是需要以语言为主，以语音识别基础的对话为主来去跟人进行交互。在我看来，语言交互，人机交互，其实在一定程度上最基本的东西已经应用地非常普遍了。推荐和搜索就是最成功的人机交互，搜索是什么呢？是人找信息，推荐是信息找人。

人机交互之间，我们最简单就是用关键词，推荐的时候就是零关键词，不需要关键词信息也可以照样找到人。所以这个也是非常适用化，我们天天使用推荐和搜索。现在单轮对话的时代，我们看到各种各样的例子，我们看到搜索中大家使用频繁的问句，基本上是自然的问句，以单轮对话计划为主实现的，加一些简单的多轮对话的机制，让你感觉到好像在做多轮对话，其实本质上，我们整个业界的水平就是只能把单轮对话做得不错，像问答，一定程度上，一定场景下能满足大家的需求。语音对话在一定场景下能够满足大家的需求。如果到了多轮对话，情况就更加复杂了，我们对多轮对话的认识，现在整个业界都还没有达到一个真正认真去研究多轮对话的状态。首先数据不够，无论是大公司，还是小公司，都是没有足够多的数据进行认真的研究，这方面如果没有真正的突破，多轮对话很难真正走向实用化。

可喜的是，现在从单轮对话出发，如果技术做得越来越好，跟用户做不断的交互，能收集到更多的数据，给我们奠定一个非常好的基础。在这个基础上能够去往前推动。多轮对话，又分两种，一种是闲聊，没有边界的。另外一种是任务驱动的，当然这个怎么定义什么叫做闲聊，什么叫做任务驱动，中间不是很清晰的画一条线。让我来推断，就是任务驱动的多轮对话可能更容易突破，但是真正像人一样的能够聊得很好，就更难，不是不重要，技术挑战就更大。

但是不管是任务驱动的，还是说闲聊，多轮对话都面临着没有足够的数据，技术上面还有待于继续突破的状态。但是可喜地是说，单轮对话的技术不断深入到我们的工作生活当中，我们有越来越多的数据收集起来了。技术上面最近这些年也有一定的突破，深度学习也帮助单轮对话的技术有很多以前想都不敢想，做都不敢做的事情。这块也在不断的进步，未来我还是非常乐观的，未来五年、十年，随着数据不断增加，技术不断进步，我们可以看到更多的对话系统，人机交互，以语言为中心，跟其他的模态结合起来，能够实现我们人机之间非常好的互动，使得我们计算机真正的成为我们人的得力助手，这是我对这个领域基本的看法。

宋晨枫：

我们正好是做这个领域，首先人机交互最核心的地方当然是在自然语言理解这个部分。但是实际上当你把它落到一个场景的时候，这个时候影响用户体验和人机交互还有很多其他的因素，咱们就拿刚才徐老师讲的智能音箱的品类为例。因为我们都认为自然语言能够带来最大价值的场景，可能一个是在家里，一个是在车里。现在，在家里的话我们把体验落地，其实有多个模块，前端要有音频处理，然后有ASR，经过ASR之后，然后是NLP的理解，之后还要对接相应的资源，只有把这个多个模块真正能够在家庭环境下把它串起来，才能够去为用户提供他满意的体验。

我们在过去这两年的实践当中，我们看来也许在一个理想的场景下，这些系统串起来能够达到90%的满意度。但实际上，今天我们如果把用户一天中所有的环节算下来，真正用户交互，然后得到他满意答案的是不足70%的，60%多，我们的团队在不断的剖析问题在哪里。这里面就说到现在几个技术瓶颈。

第一，实际上，在家庭场景下所谓的鸡尾酒会问题还是没有得到解决，而且这是一个非常普遍的场景。再加上，目前所有的人机交互都需要有一个唤醒。但是这个唤醒第一体验是有点反人类的。你跟一个人去交流的时候，不会每次都叫一下他的名字。这个是影响体验的。同时，其实由于在不同的噪音，混响，还有家里设备摆放的场景，交互的方式，其实唤醒率，还有徐老师说的误唤醒是比较大的问题。然后再到ASR，在远场情况下的ASR，因为人说话不是那么有完全句式的，很多时候夹杂英文，有的时候会吞吞吐吐，有的时候说一句话的时候，会回过头来更正他前面说的一两个词之类的。

就是ASR加上NLP，能够把这些人自然交互情况下的表达能够顺利的理解，在我们看来还是很多的问题，所以我们看很多数据，都是话说到一半就切掉了，一句话里面有两个人不断的混在一起。这些都影响到了整体的交互体验。对我们来讲，从产品角度，如果想等这个技术完美了再解决问题，然后再推出产品，可能还需要五年的时间。我们今天是否已经可以为用户提供一些价值，解决他们的一些问题，我觉得这个答案还是可以的。我们在这里面有几方面的探索，刚才李航老师讲的我非常的赞同，今天纯音箱，没有屏幕的音箱，在我们看来是一个人机交互的过度落地方案，毕竟人与机器交流的方式最高效是语言。但是机器与人交流的方式，是需要语音和视觉辅助的。当你没有屏幕的时候，信息表达，还有对用户的引导是缺失很多。所以我们小鱼在家一直在探索自然语言交互和屏幕之间的关系，所以我们也围绕着叫做体验和虚拟助手这样一种设计理念完整设计一套全新的交互模式和交互界面。

在这里面，其实我们就看到了一些比较好的用户反响，或者反馈，我们终于可以做运营了。因为当产品不能让用户随时问他所想要的所有问题的时候，如何能够设定预期，就变成了一个问题，当你有了这个屏幕之后，其实你能够在不同的场景下给他做智能的推荐，当你问了你想听什么歌的时候，这个时候助手就可以推荐你，你还可以问什么，你可以说下一首，上一首，暂停，问关于这首歌的情况，这种事情，当你没有屏幕的时候都是很难进行的。

所以，我们在初期做用户的自然语言整个成长体系是很重要的。让用户知道，其实我现在只能在18个垂类里面问问题。然后边界是哪里？让用户有一个稳定的预期，这个产品在不断的成长，可能今天你问的这个问题，问的这种方式，它在这个领域里没有很好的解决。但是我们能够在下一个迭代里面就把这个问法加进去。我觉这个是做产品的时候一点点心得。

另外，这个设备放在家庭中不同的场景，用户的行为是完全不一样的。在客厅、厨房、书桌上，客户交互的姿态，场景限定了他在那个情况下可能问的问题。所以我们另外做的是什么呢？让我们在某个家庭的设备自己认知我是在哪里，并且争取了解跟谁在交互？因为不同的人在家里的语言结构是不一样的。可能就那么几类问题，大人可能有不同的问题，所以牵扯到用户画像，我们有一个团队在做用户画像。能够让你时刻知道，用户在什么场景下跟谁交互，这个时候你的推荐、运营也能够做得更加准确，让用户有更好的体验。

| 实体交互是什么

周明：谢谢以上四位嘉宾分享了他们的经验，我要问一下老徐，你做的终身学习是什么意思？实体交互是干什么？

徐迎庆：终身学习就是不仅你从小要学，到你老了还要学，这就是终身学习。

是这样，我简单说，因为有广告嫌疑，不能多说。清华大学终身学习实验室，是乐高基金会支持的实验室。乐高在全球有四个实验室，麻省理工，哈佛、清华和英国剑桥，我们是其中一个。我们做的是怎么样来推广动手学习的理念。我们都知道，我们国家学习基本上孩子们都是读书、默写、背诵，动手学习的机会不多。动手学习对整个学习的推动和推进是什么？这个在国外已经做了很多，我们在这个领域一直在做一些工作，我们实验室做了一年多，还是做了一些很有意思的东西。我们除了完成了一些研究课题和研究项目以外，另外一个也正在帮助一些孩子们怎么去学，去更好的学习计算机，怎么编程。

我们现在基本上就三个团队，我们这个实验室请了七位员工，有从牛津，斯坦福回来的，从波士顿回来的，都是专门做这个方向。我们有一个团队专门研究两到四岁的孩子。什么事吸引了他们的学习，他们玩耍的兴趣是怎么得到的？怎么激活玩法的兴趣。另外，针对四到六岁孩子，我们做了很多玩具，比如说有一个玩具，我们做的工作不一定非得跟乐高有关，可以是任何的创新，

我们基于乐高，把芯片放到乐高模块里头，让小孩子很快搭出一个小汽车。这个小汽车，比如说是小卡车，搭完以后，程序自动呈现在屏幕上，然后小孩就可以通过用户界面，直接在屏幕上把每一个部件拖来拖去，把车的形状都放好了，放到里面，一点，这个程序就跑起来了。或者搭一个甲壳虫，一碰这个车就可以动起来。这些对于帮助孩子理解什么是程序很重要，我们不要求四到五岁的孩子学编程，太难了。但是通过这样一些学习，让他们对程序有了兴趣。我们有另外一个团队，从6到8岁开始教他们怎么用类似于图形用户界面去编程和体验，我们有很多兄弟的孩子都在那体验过，我相信每个孩子都是非常高兴的。

除此之外，我们针对清华大学的大学教育，我们也做了很多大学生的教育。比如说是非技术类的，学生的艺术教育我们也做了一些工作。这是一类。

另外，比如说我们在实体交互。实体交互就是用实物进行交互，并不是说通过一个界面，通过鼠标的交互。其实我从微软就开始做这个项目，跟微软合作。但是我们现在已经做了全新的第三代。我们做了九年，给盲人做了一台计算机，触摸的。盲人的学习跟我们的课本差不多，他们也要学电路，也要学化学分子式，以前这些东西很难表达，他们摸不出来，语音是听不到图形的。于是我们可以在屏幕上呈现这种触摸、凸凹点的图形，这个项目现在做到第七年了。前五年都是我们自己在往里投入，加上微软往里投了资金，英特尔，百度都给了很多支持。那么，到了第五年的时候，我们很高兴，这个项目变成了国家重点研发计划的项目。所以我们现在在做国家计划项目，这个就让盲人通过触摸来完成。

所以，在实体交互方面还有很多，我们的研究生开发了骨架机器人的东西。我们用骨架机器人让动画师控制骨架机器人，但是背后真正的三维动画会随着它一起动。大象的鼻子，四条腿都可以动，可以方便的编辑这些东西。我也很高兴在这跟大家说一声，我们寻求更多的合作，大家知道，马云在达摩会上，和他们的院长都宣布了未来的六大研究方向。其中有一个方向叫做下一代的用户体验研究。我们很荣幸，这个项目在跟我合作，我们下个月会宣布我们的实验室。

这个实验室将来主要是围绕下一代的用户界面，以及未来基于物联网的搜索是什么样的？基于物联网的交互是什么样的，所以这是基本的概念。谢谢大家。