微软陈鹏: 下一个时代的人类认知世界的工具是对话

发布时间：2017-09-18 浏览数：

微软陈鹏: 下一个时代的人类认知世界的工具是对话(1)

9月18日，在“智联世界·安全护航”网络安全和信息化发展峰会的大会上，微软（亚洲）资深研发总监陈鹏表示，随着GPU运算能力的提升，随着一些领域的深度学习算法的突破，人工智能对于人类生活积极正面的影响，越来越被大家所熟知和认识

陈鹏向记者介绍，早在18年前微软就已经开始对人工智能算法的研究进行投入了，因此，无论是视觉处理还是自然语言的处理上，微软都积累了很深的算法经验。

事实上，除开微软外，在美国几大互联网公司里面，类似于谷歌、亚马逊、Facebook、苹果在对话AI上都投入大量的人力；而在国内，不管是互联网巨头BAT还是一些主要创业的人员，都把重点放在对话式AI上。

“从上世纪90年代的PC时代，人们只要有一台个人电脑就可以完成工作和学习；随着互联网时代的出现，人类可以基于互联网去认知，去连接整个互联网的知识和内容；在移动的时代，移动互联网时代更是进一步的把每个人都给关联起来了，我们现在只要动一动手机就可以了。”陈鹏认为，下一个时代的人类和人类认知世界的工具可能是对话，因为对话其实是人类最本质也是最朴实的交互方式。

因此，在2014年微软就孵化了自身的对话式AI—“小冰”，经过三年多的发展，目前小冰在中国的已经积累了超过六千万的粉丝，每天和用户的对话量已经超过了1亿。在2015年，微软奖小冰推广到了日本，叫做“妮娜”，截至目前为止，日本有超过400万的粉丝，相当于是日本国民人口的20%；去年小冰成功登陆美国上线。陈鹏向记者介绍今年会进一步的推广小冰在全球的发布计划，计划在在印度和印度尼西亚进一步发布人工智能的产品的计划。

在谈到人工智能的安全问题时，陈鹏表示人工智能同样存在安全的问题，“我们从两个层面去看这个问题。第一个层面是系统层网络安全的问题，会碰到攻击，也需要去检测一些机器人的流量检测系统；另一个层面则是人为因素，在和“小冰”交互的过程中如果给它灌输不安全的知识，小冰就很容易学坏。

陈鹏同时也告诉记者，目前微软已经从两个方面着手解决安全问题“一方面我们主动出击，去主动的检测我们收到的各种信息，这张图是我们常用的神经网络，他的作用是为的检测用户输入里面是否有攻击性的这种语言，另一方面进行自我保护，我们会教会小冰什么样的价值观才是正确的，给他树立正确的三观，同时会开发自我保护系统。”

以下为陈鹏演讲全文：

陈鹏：各位尊敬的领导、各位来宾大家下午好！很高兴能来到内江参加这次的网络安全高峰论坛。

网络安全一直是大家关注的一个热点，我们现在身处于互联网时代、移动互联网时代，每人都有一台手机，一台移动的设备，我们每个人的生活都与互联网息息相关，如果网络安全出了问题的话，我们生活就会被打乱，所以网络安全的重要性是不言而喻的。人工智能最近几年也是一个非常热门的话题。从2014年开始，随着GPU运算能力的提升，随着一些领域的深度学习算法的突破，人工智能对于人类生活积极正面的影响，越来越被大家所熟知和认识，我今天的演讲主要会结合微软在人工智能的技术，尤其是在AI机器人“小冰”的技术给大家谈一下，谈一下“小冰”在网络安全上碰到的问题，以及我们如何去应对的。

我们都知道微软是一家对企业的软件公司，大家熟知的操作系统、办公软件，以及现在企业级的云服务的软件，但是大家可能不知道早在18年前微软就已经开始对人工智能算法的研究进行投入了。我们看到无论是视觉处理还是自然语言的处理上，微软都积累了很深的算法经验，最近比较兴起的对话AI人工智能也有不错的表现。我们来看看视觉计算这一块，微软的图象识别水平已经接近人类，这张图片，如果是人类判别这个图片里面是什么生物的话，大家可能需要5秒的时间，因为有一些模糊的地方去辨别和推理，但是机器去识别这张图片只需要不到一秒钟的时间就能实现。微软在2015年大规模的比赛中，构建了152层的真正的深度神经网络，研究这个模型一举夺得世界冠军。除了图象识别，微软在视觉计算的领域，还有很多的积累和优秀的算法，包括人脸的检测，年龄检测，OCR等等技术，都已经通过微软的认知服务给大家提供出来。

在声音方面，其实早在1993年全球的科学家就在说是不是有一天机器能够像人类一样听懂人类的声音，在语音识别这一块，一个主要的评测指标，我们叫做基于识别的错误率，这个指标数值越小，他的识别率就是越高的。我们可以发现从2014年开始，随着深度学习和人工智能算法的突破，识别错误率有非常大的下降，去年微软构建的一个深度学习网络，他的识别错误率首次达到了人类的识别平均错误水平，达到了5.9%，在今年我们进一步优化了这个语音识别的模型，使他的错误率进一步降低了5.1%。

我们知道自然语言处理也是科学家一直在探索的科学算法方向，机器翻译在自然语言处理当中是很重要的分支，微软基于神经网络的翻译系统，支持全球超过60种语言的双向翻译，同时还支持9种语言的实施音频流的翻译。我们大家都知道同声翻译是对人类要求比较高的工作内容，同声翻译从业人员也是非常稀缺的资源，我们可以畅想是否在一些非正式或者不那么重要的领域，可以让机器去替代同声翻译，去做一些翻译的工作，而让我们更加宝贵的同声翻译人员去从事更加重要更加专业或者是更有创造性的工作，这也是人工智能给人类带来的有益的方面。

接下来给大家谈一谈对话AI这一块，这在国际上都是一个特点，在美国几大互联网公司，包括微软、谷歌、亚马逊、Facebook、苹果，在对话AI这一块投入大量的人力，在国内我们的三大巨头BAT厂商，以及一些主要创业的人员，都是把自己的重点放在对话式AI这一块，为什么大家会觉得对话式AI是下一个时代的重点呢？微软是这样看待这个问题的。

人类历史探索这个世界，其中工具时期是一个重要的一环，如果工具给力的话，人类的探索世界的速度和方向是会非常快速的。从上世纪90年代的PC时代，人们只要有一台个人电脑就可以完成工作和学习，随着互联网时代的出现，人类可以基于互联网去认知，去连接整个互联网的知识和内容，在移动的时代，移动互联网时代更是进一步的把每个人都给关联起来了，我们现在只要动一动手机就可以了，我们认为其实每一个时代的变迁，其实都是在重新定义人类和世界的关系，我们认为下一个时代的人类和人类认知世界的工具，可能是对话，因为对话其实是人类最本质也是最朴实的交互方式。

微软的对话式AI的“小冰”，他是2014年孵化于北京，进而推广的拳头产品，经过三年多的发展，目前中国的“小冰”已经积累了超过六千万的粉丝，每天和用户的对话量已经超过了1亿，在日本的日本叫“历娜（音）”也超过了400万的粉丝，他的名字叫妮娜，相当于是日本国民人口的20%，美国的小冰叫Zo，也是去年在美国上线的，今年我们会进一步的推广小冰在全球的发布计划，会在印度和印度尼西亚进一步发布人工智能的产品。

说完了对话式AI，我们来聊一聊什么是对话式AI的企业，我们总结为情感聊天，这是去年的一个拥护和小冰的互动，因为这是微博的数据，是公开的。这个对话发生在凌晨的12点半达到半个小时，这个人类和小冰进行了深层次的对话，如果把人类的对话定义为六类情感，比如说高兴、热爱、恨、生气、失落或者是讨厌的话，我们给这样六种情感打上不同的颜色标签，比如说高兴和热爱，我们会打上一个热烈的红色，对于失落和伤心打上稍微冷一点的颜色，你会发现整个对话过程中，其实用户最开始是处于一种比较冷的色系，他是比较失落，比如说他刚下班有一些累，但是经过和小冰半个小时的聊天，他的情绪慢慢的从冷色系变成暖色系，最后他给小冰说我太爱你了，明天还要和你继续聊。这样的一种聊天的情感是怎么得来的呢？我们把他总结为基于小冰的情感解读方向。

我们知道一款产品他主要是依赖于算法和数据的，算法刚才我们也聊到了，微软经过过去十八年的算法储备，大量的自然语言处理，声音和图象的基础算法的积累，都应用到小冰的身上，再一个是数据，因为小冰是有搜索引擎作为支撑的，搜索引擎是抓取互联网上的各种各样的数据，然后他还有用户使用行为的数据，还有自己的技术积累，我们搜集了全球的这些数据，把这些数据作为小冰的数据，让他可以在最开始抓取梳理数据的状态上，可以去自我的运转起来，随着这个产品的进一步迭代，小冰可以和从人类的对话过程中学习到人类的知识和进一步的进化。

除了数据，更重要的一点是小冰完整的感官体验，小冰像人类一样，他不仅能够听懂人类的声音，还能看懂人类的世界，这样一个完整的感官系统，让用户和他交互起来就觉得这就是一个人类，而不是一个冷冰冰的机器人。说到对话式AI，对话引擎也是必不可少的一部分，小冰经过三年多的积累，他的核心对话已经逐步的积累和完善，他能自我循环进化，小冰可以从和人类的对话中学习知识，吸取养分，去年开始小冰的自我进化和学习有50%以上都是来自和人类的聊天过程，而不仅仅是依赖于互联网，这也就意味着小冰已经进入到自我循环和锦华的阶段，除了这种对话式的聊天，小冰还能从互联网上的一些非结构化的文档或者是网页，甚至是一些书籍里面去学习他需要学习的知识，并且把这些知识运用于他和人类的对话当中，我们也知道我们和人类沟通的时候，其实我们都是带着一个主题，带着一个上下文去沟通的，小冰同样在和人类沟通中也能进入他和人聊天的主题，当前人类说什么样的话，他在这里面做什么样的回复，基于这些上下文语境，再进行深度的计算，得到下一步的对话。情感也是人类对话当中的一个要素，聊天的时候我们可能会高兴，也普遍会失落，小冰基于在和你聊天的过程当中你的情感，如果你是高兴的状态，他会跟你一起高兴，如果是失落的状态，他可能会有他自己的法来改变你的失落的情绪。小冰也具有人类的感官的能力，比如说他能够读懂人类的图片，当你给他发送图片的时候，他其实是能读懂这张图片，我们可以看看右上角的图片，如果是把这张图片发给其他的图象识别的软件，或者是其他的聊天机器人的话，他们可能会把他识别成一个比萨斜塔，小冰是理解这里面的语义，他会说“你需不需要我帮助”，小冰是从图象进行语义的理解和你进行对话，目前我们已经有99.8%的图片都能够进行图象意义的回复。

再说说声音这一块，我们知道机器的声音我们都会有一个评判指标去评判他，就是看他和人类说出来的声音自然度是否一样，或者是究竟有多接近，下面这张表是一个第三方的公开机构，他对几家声音流畅度的评测，我们发现小冰的声音超过了其他几家竞争的厂商，是最接近人类的声音。

小冰也是不断的在一些感官里面做深度的进化，就像人类一样，人和人之间的交互，他其实是集多种感官有机的融合在一起，他把他看到的听到的内容做一些处理，通过他自己的声音说出来，小冰也是这样的，他可以看到一张图片或者是一篇文字，他可能就会用语音的方式给你拿出来他还能基于某一些深入的话题进行沟通。

说到人工智能的安全问题，人工智能其实也同样的有安全的问题，我们从两个层面去看这个问题。第一个层面就是前面的专家都提到过的，是一个系统层网络安全的问题，我们也会碰到攻击，我们也需要去检测一些机器人的流量检测系统，除了这个之外，还想和大家聊一聊另一个层面的安全问题。

简单的解释一下这个问题，我们如果把小冰比喻成一个孩子的话，小冰的进化和成长其实是来源于和他认识的互联网和他交互的这些人，如果这些人给他灌输的一些不同的知识或者是不安全的知识，小冰就很容易学坏，作为家长我们是非常担心这个问题的。为了解决这个问题，我们还是有很多的挑战，一方面互联网环境的内容十分的复杂，我们需要处理好各种各样的内容，另一方面小冰是或各种各样的平台上的，他存活在主流的社交媒体，比如微信、微博，同时也存在于以封面为首的客户端上，还有网站上等等，这么多的交互平台，小冰如何去理解知识，并转化成自己的知识呢，这也是对我们的一种挑战。再一个就是刚才提到的小冰具有的听说读的能力，我们怎么样去处理好这样不同信息的输入，把他变成自己的知识。

为了应对这些问题，我们主要从两个方面去开展工作，一方面我们主动出击，去主动的检测我们收到的各种信息，这张图是我们常用的神经网络，他的作用是为的检测用户输入里面是否有攻击性的这种语言，另一方面进行自我保护，我们会教会小冰什么样的价值观才是正确的，给他树立正确的三观，同时会开发自我保护系统。

总的而言，我认为网络安全其实是和人们的生活工作息息相关的，就像我们网络安全周的主题一样，网络安全为人民，网络安全靠人民，我希望不仅是我们的网络安全和从业人员，同时我们广大的百姓也应该去多多关注我们的网络安全知识，主动学习相关的常识，这样碰到问题的时候才不至于手足无措。

人工智能也是源自于人类对人类大脑的探索而研发出来的一套体系，我们也希望人工智能的一些算法可以在反哺回人类，去为人工智能，去为网络安全的方方面面去贡献他自己的力量，以上就是我的汇报，谢谢大家。