对话微软沈向洋: AI当前水平怎样有哪些技术难点

发布时间：2017-05-21 浏览数：

对话微软沈向洋: AI当前水平怎样有哪些技术难点(1)

2017年5月10日，在刚刚结束了Microsoft Build 2017大会的主题演讲后，微软人工智能及微软研究事业部负责人沈向洋博士（Harry Shum）接受了InfoQ等特邀媒体的采访。本文对此次采访的要点整理。

为什么现在人工智能这么火？沈向洋说：“云计算与日俱增的强大威力、运行于深度神经网络的强力算法，再加上今天能够获取到的海量数据，在这三股强大动力的交织驱动下，今天，我们终于有能力实现人工智能的梦想。人工智能拥有无穷的潜力，它有能力颠覆任何现有的垂直行业。”

那么，人工智能当前究竟发展到了什么水平？前进的路上技术难点在哪里？微软的人工智能之路是如何规划的，又是怎样面对人才竞争的呢？

一、如何看待人工智能？

在回答InfoQ记者提问时，沈向洋博士全面阐述了他对人工智能的理解：人工智能分为感知和认知两方面，感知方面已有重大进展，认知方面的还远远没有获得突破，但可解释的AI将在5年到10年获得重大突破。

1.为什么会有人工智能？

谈到人工智能，虽然大家在今天会激动的不得了——我自己也觉得——有些东西已经在发生了，但是，首先你要回过头来看，为什么会有人工智能？

人工智能是对于人类智能出来的，也就是Human Intelligence。后来60年以前约翰·麦卡锡定义一个词叫Artificial Intelligence，据说是麦卡锡真正提这样一个智能。

2.人工智能分为感知和认知两部分

为什么大家会觉得人有智能？其实，人的智能基本上分成两部分，一部分是感知，一部分是认知，而人工智能也是对应的。

（1）感知方面有非常大的进展

感知里面最了不起的、最大的一部分就是视觉感知。

以前有人做过这样的研究，一个人91%的信息是从视觉收集过来的，我忘记了他用什么样的方法算出来这个数字，但大家基本上会同意这个观点：绝大多数感知都来自于视觉，然后是听觉，最后才是其他的感知。

我觉得这边的进展非常大，我一直讲，过去这一年我都在讲计算机语音识别也就是五年的事情，五年之内计算机语音，它可以识别，不管你怎么去讲它都能识别。接下来10年左右的时间我觉得计算机视觉也会达到这一点，今天视觉很多东西已经超过人，人脸识别。我讲的是是很泛泛的普遍认知，到一个新地方，看到一个新东西能够联想到什么，这些东西大概十年左右的时间可以实现。

（2）认知方面远远没有获得突破

在认知方面，今天我们远远没有获得突破，都谈不上跟人类相比的地步。

首先是自然语言处理的问题，然后就是知识获取的问题。越来越多的人更应该去做这方面的工作。自然语言处理，我刚才也提到机器阅读，语言这个问题，相对来讲的确是比较复杂。用今天现有的方法，包括深度学习的方法，解出来的效果还不是足够好，当然用深度学习已经可以帮助到我们很多东西，比如像翻译也用了很多自然语言的东西。

更重要的，今天大家对整个“认知”这样的一件事情的定义，还在一个比较初级的阶段。

例如，什么叫做常识（Common Sense）？你怎么知道见到这个人以后，为什么会对他很有一种亲近的感觉？这些我们还不是很理解，而这是一个很大的问题。

稍微岔开一点讲，很重要的一个问题是，今天我们个人工智能做的这些东西，和脑科学的结合不够，理解也不够。很主要的原因就是对“智能”的很多东西，只有人脑这样一个范本，但人脑结构很特别，今天我们还不够理解。脑科学作为一门科学，今天也还处在一个早期的阶段，我们还不能做太多的实验，也不能随时把一个人的脑袋打开塞一些东西进去。

这个是一个长期的问题，现在越来越多的人也在想这样的问题——连接人工智能和脑科学。

（3）认知方面，可解释的AI将做出非常了不起的成果

有一个方向让我们觉得是很激动人心：现在在微软研究院很多的人在做这方面的事情，我也跟很多大学有一些合作，就是所谓的“可解释的AI”（Explainable AI）。我认为，Explainable AI在接下来5到10年，肯定可以做出非常了不起的成果。今天我如果有研究生的话，我就会让他们做这个方向的工作，原因非常简单，因为今天AI最大的突破就是深度学习，但是深度学习的一个最大的问题就是，出来的结果非常好，但是你没法解释。

我自己看到的，这方面写得最好的一篇文章，是最近在《纽约客》的一篇有关医疗AI的。为什么看同一张图，医生会跟你讲，你没问题，原因是一、二、三。但今天AI还做不到这点，深度学习做不到这点，很大的问题是大家解问题的空间不一样，医生是在一个所谓的neural，脑的这样一个连续的空间在解，而AI很多的理解是在符号的离散的空间上去做。

所以，如何把这些东西连起来，从技术上有讲有很多有待突破的地方，也是我们现在研究院很认真在做科研的一个方面。

二、微软在人工智能方面的进展

1.语音方面

首先，我们讲人工智能在语音方面的突破，人工智能在语音识别，语音合成上面最近都取得了非常瞩目的结果。2016年9月，微软的对话语音识别技术在产业标准Switchboard语音识别基准测试中实现了词错率低至6.3%的突破，创造当时该领域内错误率最低纪录。一个月后，微软进一步将词错率降低至5.9%，首次达成与专业速记员持平而优于绝大多数人的表现。

2.图像方面

其次，在图像方面，人工智能也有很多长足的进步:

2015年12月，ImageNet计算机视觉识别挑战赛结果揭晓——微软亚洲研究院视觉计算组的研究员们凭借深层神经网络技术的最新突破，以绝对优势获得图像分类、图像定位以及图像检测全部三个主要项目的冠军。同一时刻，他们在另一项图像识别挑战赛MS COCO（Microsoft Common Objects in Context，常见物体图像识别）中同样成功登顶。在ImageNet挑战赛中，微软亚洲研究院的研究团队使用了一种前所未有的深度高达152层的神经网络，这比以往任何成功使用的神经网络层数多5倍以上，从而在照片和视频物体识别等技术方面实现了重大突破，将错误率降低至3.57%。

2016年10月，微软亚洲研究院视觉计算组的研究员在图像识别MS COCO图像分割挑战赛中获得第一名，成绩比第二名高出11%，且相较于前一年COCO图像分割挑战赛第一名的成绩也有飞跃性的进步。

3.自然语言方面

除了语音和图像以外，其实人工智能在自然语言上面也取得了很大的进展。

（1）人机对话：自然语言人机对话方面，深度神经网络逐渐取代了传统的统计机器学习，成为主流的研究方向。现在，自然语言技术已全部转向深度学习网络，我们的对话系统也都用到了深度学习网络。大家熟知的微软小冰，起关键自然语言处理技术就是采用的微软自然语言处理技术，目前已经能够实现与人类23个来回的对话。

（2）机器翻译方面，Microsoft Translator现已支持60多种语言，可以实现多个人多种语言的实时翻译，比如大家每个人可能来自不同的国家，只要拿着手机APP版的Microsoft Translator就可以互相交流。你说一句话或者输入文字，对方听到/看到的就是他的母语。而在刚刚结束的微软年度开发者盛会Build 2017上，微软也展示了最新的Presentation Translator的PowerPoint插件，它利用了微软的Translation API接口，可以在播放演示文稿的过程中，实时地将其翻译成多种语言。

（3）机器阅读理解方面，在由斯坦福大学自然语言计算组发起的SQuAD（Stanford Question Answering Dataset）文本理解挑战赛上，微软亚洲研究院的自然语言计算研究组持续稳居榜首。微软亚洲研究院团队在准确性和相似度这两个不同维度的评价标准上均取得了最优的成绩，其准确度达到了76.922%，相似度达到了84.006%，高出第二名近两个百分点。

三、微软的人工智能科研之路

任何一个企业，一个单位，特别是大了以后，一定要去想短期的目标是什么，长期的愿景是什么，一定要从这个角度去想。我的部门比较特别的地方就是，因为我除了AI以外，还管AI研究院，在AI研究院我们有1000多位科学家，要不断培养一代一代新的了不起的研究员去做更为了不起的技术。

1.微软在人工智能领域四个研究大方向

第一，搜索引擎方面。今天世界上最大的人工智能可能还是搜索引擎，微软Bing这么多年下来超过25亿的entity。这里面就有很多的知识，搜索引擎本身不仅仅是一个业务，虽然现在Bing也很赚钱，我们在美国22.6%的搜索市场份额再加上雅虎的11%（技术是我们后台做的），所以我们在美国有1/3的搜索份额，在中国最近涨到16.5%。从AI的角度来讲，它就是知识的积累。

第二，非常非常重要的一件事情就是Cortana（小娜），我觉得Cortana是代表了AI的未来，对人的了解。要做好AI需要三个方面的知识：

对世界的理解

对工作的了解

对用户的了解

这三件加在一起的话，才可以做的非常好，我觉得小娜在朝着这个方向走，要去做这个事情当然要有很大的投入在里面。

第三，其他的公司和微软公司一起合作，怎么样令AI帮助微软转型，我刚才提到Office，也提到Cloud，也提到Windows，我们一起做。同时我们把这样的一些技术拿出来给其他所有Microsoft开发者去做，今天我讲的终点一直都是在我们AI部门这么多年做出来，有很多的技术是从微软研究院做了几十年下来。

第四，对商业机会的挖掘。所有的商业应用都会被颠覆掉，在这里面微软正在选择哪些方向，哪些商业的AI这样的机会我们会挖掘，以后希望能够有机会跟大家再分享这边的进展。

2.长期培养人才进行科研

任何一个企业，一个单位，特别是大了以后，一定要去想短期的目标是什么，中期的希望是什么，长期的愿景是什么，一定要从这个角度去想。我的部门比较特别的地方就是，我除了AI以外，还管研究院。在研究院我们有1000多位科学家，刚才新智元的同事也问道，我觉得最重要的就是，要不断培养一代一代新的了不起的研究员，去做更了不起的技术。

例如我刚才提到，人工智能（更多在离散的空间做符号处理）和脑科学（更多在Neural神经元做连续处理）这两个空间的融合。符号可解释的空间和连续的脑空间之间的关系，三五年前基本上没有什么人研究这些方向。我认为更重要的就是应该培养新一代，看到这样的问题。如深度学习，要去解释它。

四、微软的人工智能产品之路

1.为什么一定要有产品？

对普罗大众来讲，他不会去看论文来判断你的研究成果，也不知道你的论文有多了不起。你要跟人解释，最容易解释的方法就是你给人看看你的产品，HoloLens马上就会被人看到，我们希望有机会做一些更了不起的产品，不光是对消费者，更多是针对企业用户的产品。我个人认为，三五年内，对AI而言最大的机会还是在企业市场中。

2.正确看待科研

很多人不明白，说这么多人做科研，怎么还没有产品化？科研就是一个很长期的东西，你要么就不要说自己做科研，要做科研就要有耐心。比如今天大家谈的热火朝天的量子计算，具体哪天量子计算机可以做出来，没有人知道。在这一点上，美国的这套系统还是值得我们学习：从大学开始，到研究所，再到工业界。以前的AT&T;和IBM，再到现在的微软，很多公司愿意花很多的钱出来做长期的科研，而绝大多数的科研成果不仅仅属于本公司，只是自己的公司有可能得到利益。

这一点我们盖茨讲得非常清楚，比如苹果和微软早期的成功，很重要的就是图形用户界面，而 graphic interface 最早是施乐做出来的，我们跟他们学习。同样，今天微软做了很多了不起的事，但是可能其他一些公司，甚至一些初创公司还会做得更好，这都是很正常的。

而且，做科研是非常愉快的一件事情，做科研最愉快的事情就是根本不用担心别人在想什么，你自己拍拍脑袋想想就可以，要有一个了不起的想法——我以前是多么的享受做科研，后来被鲍尔默赶出来去做产品。

3.如何从技术研究到产品化

当然，我们不是一个公益的研究院，对公司是有责任的，包括最重要的一件事情，就是从技术到产品的转化。目前，AI本身今天很多的东西还在研究阶段，所以今天微软重组，把AI和研究院放在同一个部门——我觉得非常荣幸能够领导这样的部门——我们看到了非常多的机会。

怎么从技术到产品转化这个问题，可能今天最好的例子就是认知服务，其中大概2/3的技术是原来微软研究院做的，而且做了很多年，以前我们不是很清楚，一些计算机视觉的技术怎么转化成产品。但是因为有Azure，有认知服务这样的机会，很多很多的微软研究院的技术，都已经通过认知服务转化成为产品。

另外一个例子是HoloLens，它研发的过程是“研和发，研和发”不断循环的过程。HoloLens这些人之前就是做Kinect，Kinect做出来微软研究院就做了Kinect Fusion，又做了一个项目叫Holodesk，如果是三维的东西，你怎么样加一些三维的虚拟物体进去。后来微软有一批非常了不起的做产品和设计的工程师，他们想到要在此基础上做成HoloLens，在这个过程当中，里面很多计算机视觉、语音的技术都是微软研究院一起做的，是一个共同研发的过程。

4.AI部门的产品规划

可以挣一些钱，定个小目标，这是非常重要的。但是，更重要的事情是 AI 这个部门成立之后，我们要想清楚如果我们真的觉得AI会颠覆更多的行业应用，在颠覆的过程当中，我们的机会在哪。

（1）对现有产品AI化

比如Office等跟AI结合，将会有哪些颠覆性的内容产生，有什么新的产品出来，有什么新的功能出来，这边的话我们进展得非常好。

AI的三大方面：第一，你要有非常强大的运算能力；第二，你要有非常了不起的算法；第三，你一定要有自己的数据。

我用微软的例子来介绍一下，在微软，我们当然相信，微软所有的产品都必须要AI化，重新去定义这样的产品。

我们现在很注重的地方是两个方面，一个是在所有的Office产品，在主题演讲中我给大家看了 PowerPoint一个功能，就是翻译（translate）。其实PowerPoint他们还做了另外一个，我自己非常喜欢的，所谓的图说生成（image caption）：来一张照片，PowerPoint图说生成可以自动给你出图片说明，这个我们已经做得相当好了。

PowerPoint很多人用。这样的数据可以帮助我们不断改善一些算法。前不久我们也发布Word，Word里面使用AI技术，这也非常非常重要。

这里面还有很多AI的技术都才刚刚开始，我自己觉得Office最激动人心的技术就是所谓的机器阅读。前不久微软买了一个加拿大的初创公司叫做Maluuba ，主要就是做这方面的工作，用自然语言、深度学习的方法来做这个东西。深度学习里面一个很重要的问题，就是回答问题。我觉得对Office的影响会非常巨大，所以我们AI部门的同事和Office的同事一起在做。

另外一个就是在云这里，大家合作非常多，你到Azure.com主页的产品里面，Cognitive Services的内容放置最显著的位置上，这是Scott和我，跟我们产品团队的同事review了以后决定，Cognitive Services会变成Azure的重中之重。Windows还有很多AI，像HoloLens还有很多AI的技术，计算机视觉、计算机语音方面。

（2）挖掘新的产品线：决定做什么和不做什么

另外一个你要去想，新的产品线在哪里，你有没有一条新的产品线出来，三五年以后可以做到十亿美元的生意。要思考，你有没有这样的业务，五到十年可以做到一百亿美元的生意。如果有，当然要放马去追求这样的机会。

所以我们现在整个AI部门最重要的事情，就是决定要做什么，决定不做什么。

五、如何应对人工智能方面的人才挑战？

1.如何看待人才流动？

我觉得人才流动非常正常，一个大公司培养了很多的人才，最重要的还是说任何一个公司你要知道你存在的价值和理念，这体现到优秀的员工为什么会选择留在你这里，不光是你到外面挖人，你给在这里的员工提供什么样非常了不起的环境，让他在这里面有非常好的发展。

我上次在乌镇，跟刘云山书记报告的时候，跟大家说微软公司在中国，为中国IT产业培养了无数的优秀人才，我说你不仅要看到中国几乎所有IT公司的CTO都是我培养的，从联想到海尔到小公司，我说你更加要看到微软研究院在过去18年，培养了5000个学生，那些才是真正了不起的，新一代的创业公司出来——现在可能不会是这样的情况——当时计算机视觉、AI公司刚起来的时候，那些投资人来问我一些情况，我说你不要跟我讲，在中国开计算机视觉的公司，要么是我的学生开的，要么是我的学生的学生开的，这都非常光荣的事情。回过头来看，微软研究院、微软公司对中国的IT发展，很多方面都起了巨大的正面作用，特别是为中国培养了非常多的一流人才。

关于对外输出人才，微软研究院一直觉得非常自豪。我们培养了李开复，我们培养了张亚勤，我们培养了赵峰、我们培养了芮勇，芮勇还是我学弟，这些都非常好，我们都觉得非常光荣。

2. 如何培养人才

我们最近在做一个非常重要的事情就是关于人才方面的。在6个月以前，当时成立我们这个部门还不久，我就成立了微软人工智能学院，培养相当一批微软内部人才。我们希望通过这样的方式可以吸引到更多很多外面的人才来到微软。这么做，并不是我们担心又有人挖我们AI的人才，更重要的是把我们的人才培养成AI capable，所以我们就有一字头的课、二字头的课、三字头的课，一直到六字头的课，我最近刚刚做完一期AI611这门课，专门做深度学习具体项目。有10个项目，非常了不起，这门课结束的时候，我专门用了2小时去听了他们的报告，非常好！所以我们现在在不断培养AI的人才，既包括内部的人才培养，也包括吸引外面的人才。

六、结语

若干年前，很难想象会有一样技术工具是由人工智能驱动的。

若干年后，很难想象会有任何技术的背后没有人工智能的影子。

云计算与日俱增的强大威力、运行于深度神经网络的强力算法，再加上今天能够获取到的海量数据，在这三股强大动力的交织驱动下，今天，我们终于有能力实现人工智能的梦想。

人工智能拥有无穷的潜力，它有能力颠覆任何现有的垂直行业，比如银行或者零售业，还有任何单一的业务流程，比如销售、市场或者人力资源和猎头。

这样发展下去，终有一天，人工智能将有能力为人类无边的聪明才智锦上添花——增强人类已有的能力，并且帮助我们获得更强的生产力。

受访者简介：

沈向洋博士，微软全球执行副总裁，微软人工智能及微软研究事业部负责人，美国电气电子工程协会院士，美国计算机协会院士。全面负责微软全球的人工智能战略，主持覆盖基础设施、服务、应用以及智能助理等前瞻性的研究与开发工作。他同时负责人工智能产品事业群，包括微软信息平台部门、必应和小娜产品部门，以及环境计算和机器人团队。此外，沈向洋博士还负责与微软产品工程部门的融合。

对话微软沈向洋: AI当前水平怎样 有哪些技术难点

对话微软沈向洋: AI当前水平怎样有哪些技术难点