「GET2017」微软崔宏禹：神经脑科学未突破之前，深度学习仍面临瓶颈

发布时间：2017-11-18 浏览数：

（崔宏禹分享现场）

11月16日，在GET2017教育科技大会“人工智能论坛”上，微软中国技术总监崔宏禹分享了他对深度学习的理解，并介绍了微软在人工智能领域研究的三个方向。微软1000多位工程师开发了一些认知服务与机器人框架，向所有开发者开放。

崔宏禹说，机器学习不是一个新课题，它是以统计理论为基础的学科。基于现有、过去大批量的数据，通过统计学原理找到数据背后的规律。认知服务实际上是机器深度学习的结果。他介绍微软的认知服务包括视觉、语言、语音、搜索知识。

他特别强调视觉在个性化学习的重要性。在机器与人的交互过程中，通过视觉分析识别当前学习者处于的情绪状态，及时给教学者反馈。但他也坦然，五六十年代神经脑科学就在对神经网络进行研究，但至今没有大的突破。在神经脑科学没有突破之前，基于大量数据做视觉和情绪识别分析仍然很难。崔宏禹认为，这依赖于所有科学家，包括计算科学、数据科学、神经科学、脑科学一起努力，才能保证未来深度学习的过程。

微软的认知服务和机器人框架

各位大家早上好，非常荣新今天能有机会在GET大会上给大家做一个介绍，从技术和平台角度来看，我们在人工智能这两年在做什么，人工智能到底能给我们带来一些什么样的改变，或者说人工智能在现阶段的研究过程当中，还存在哪些不足。我们可以把这些技术怎么更好用到教育和产业当中去。

我们现在讲人工智能，目前为止我认为都还在机器智能这样一个阶段。是基于大量数据，以及所谓深度学习算法基础之上出来的机器智能的说法。为什么我特别说，我不愿意过分的强调人工智能。因为从50年代，人对神经科学的认知一直到现在，没有特别理论上大的突破。所以就造成了我们对整个人工智能领域一些相关产业上可能会有一点误解。但这不妨碍我们在人工智能领域有一些现成的内容和一些现成的场景出现。

微软人工智能所谓三重境界，是我们超过1000多位工程师所承载的这样一个平台，给大家提供的福利。很多人在讲人工智能的时候都在说一个问题，人工智能是很高大上的东西，我们到底该怎么用，我们能不能用。对今天在座的很多老师和很多学生，还有很多教育产业从业者来说，人工智能很高大上的东西，怎样尽快地享受到人工智能给我们带来的福利。

这张图是模仿整个人的思维构造。具体就是人的“身体发肤”，包括我们的神经、血液和所有的器官。在这个基础之上，我们才有认知，常用的听说读写看。但是人还有另外一些感觉叫认知，我能够知道你这会儿是高兴的，我知道你是沮丧的，你这会儿可能是无所谓的表情。所以在这个基础上我们要有认知。认知基础之上，我们抽取到自然界和社会当中所有的信息以后、感知到信息以后，我们才有一些创造，这是完全基于数据的创造。

在数据的基础之上，我们通过加工产生一些新的智慧，我们发明了一些新的算法、发明了一些新的产品，这是人的过程。相对于机器来说是这样一个过程，底层有一个非常庞大的计算资源。不管是云计算平台还是自有的数据中心计算平台都离不开这个。

这个基础之上我们开发一些认知服务和机器人框架。这是微软的说法。什么是认知服务？一个小朋友看到一张照片，能准确说出这张照片上有一只狗、两只猫，很简单。但是如果让机器读这张照片上有几只猫、几只狗，狗的品种是什么，这是很难的事情。能够写出算法，能够准确地分辨照片上有一只猫两只狗三张桌子四把椅子这样的信息出来。我有个同事跟我说，我有一个很简单的分法，能够写这个算法的人在北京年薪起码在100-150万以上。

我们现在认知服务，想法很简单，我们想让小朋友都能够准确的判定内容的过程。让它平民化，让大家通过简单的API方式就能够用到。这是我们的认知服务，加上一个机器人框架以后，更方便做沟通渠道交流。

除了这个以外，我们还有一些机器学习和数据分析的方法。所有学习过程我们要有大量数据，大量数据背后要做计算，计算的结果才能给我们下一步教学行动给出一个建议。所有的过程，都是在这个基础之上的。

视觉在个性化学习中的应用

实际上机器学习不是一个新的课题，它是以统计理论为基础的学科，基于现有的、过去大批量的数据之上，通过一些统计学的原理，找到大量数据背后的规律。比如说我们能找出温度和湿度，还有房间空间大小变化的规律，那我预测未来进入到一个新的空间里面以后，它的温度和湿度的变化情况。

我刚才本来想脱口而出，尿布和啤酒的故事，这个故事讲得太多了。基于统计学的方式，能够实现一些基本的算法。有数据表明，你的数据超过100万的话，不管在考试题目判断上，还是在学习计划行动上，人是可以接受的。如果你的样本数据超过1000万，不管是语音训练、口型的训练，还是试卷的一些判断，或者是参加考试。你的准确率很有可能超过人的判断力。

我们微软亚洲研究院今年6月份刚刚发布，我们对英语语音争取的识别率，错误率已经降到4%以下，而一般来讲人的差错率在5.8%-6%。也就是说远远超过人的识别率了。这都是基于学习和数据分析基础之上，再加上我们现在新算法的突破。利用深度学习的基础，我们不停深度的训练，完成了以学习驱动学习的过程。

这是微软人工智能的三重境界。同样我想跟大家说，这也是业界在人工智能研究方面的三个主要方向。在这个方向的认知服务上，我们提供了视觉、语言、语音、搜索知识等服务和方法。

我想重点给大家强调一下视觉，为什么要强调视觉？就像刚才讲的一样，一方面要知道你在什么地方学，你学的过程中情绪化是什么样的。比如说我们要定制一个个性化学习课程，比如初中生要学一元二次方程。那一元二次方程每个人的学法是不一样的，如果老师课堂教学很清楚知道这个课堂45个孩子每个人大概的表现是什么样子。如果当我在上面讲的时候，底下所有学生都是呆若木鸡时，我认为我的教学方法可能有问题，或者这个学生掌握的有问题。而不仅仅只是从课后的练习获取整个教学的过程。整个教学交互的过程中，当我讲的过程当中，如果所有学生面部表情都是非常轻松的，那我认为这个课非常成功，学生掌握的也非常好，我可能快速的就过去了。

视觉来干什么事情呢？就是能够在机器和人交互过程中，通过机器的方法判断，当前听众处于什么样的状态。他到底是非常高兴的，还是一个非常痛苦的学习过程。所以，这个很简单，我能告诉大家的事情是，我们通过简单的API，能够把一个教室当中的学生，45个孩子，所有面部表情都能识别出来，都知道他当前处在一个什么样的状态。通过这些信息的加入，能够精准化衡量教学的结果，这是一个认知服务。

我想通过一个视频给大家看一下，认知服务到底怎么来看待。这个视频当中的主人公是我在美国的同事，他是一位盲人，但他是微软的程序员。因为现有技术，通过简单听说读写，能够让他感知到键盘应该怎么敲，一本书写的是什么。但是当他跟他的同事开会的时候，他没有办法判断，没有办法知道对面同事是什么表情。就像这个一样，在他面前这个人到底是做什么。光听好像是有哗啦啦的声音，这个声音到底是什么，他不知道。也就是说他不知道他周围的环境。他可以正常去写程序，但是他不知道周围的环境。他也不知道他在开会的过程中，跟他同事沟通的过程当中，他同事到底是赞同的，还是反对的。

他就通过微软的认知服务，视觉服务，很清楚的感知到他对面的听众是什么样的反馈，他能知道对面有一男一女，年龄大概多少，对他刚才讲的话是赞同，还是吃惊，还是什么。这代表下一步才能有反馈。

所以，只有当你把你周围环境都感知进来的时候，才掌握了这个世界，才掌握了学习过程当中所有的环节，才能很准确判断下一步该给这些学生一些什么内容。我们在评价人和人之间沟通的过程中，绝对不只有听说读写，情绪是很重要的。但这个情绪恰恰就是我刚才讲的，在我们神经脑科学的发展没有突破之前，很可惜。五六十年代对人的神经网络有研究，到现在为止没有特别大的突破，没有突破之前是很难的。我们也只是尝试，通过大量的数据得到了这个结果，但是这个结果远远不够的。

深度学习依赖多领域科学突破

同样还有深度学习，我罗列了市场上用得最多的几个深度学习的开源算法，包括微软的CNTK，包括Caffe、TensorFlow，这是微软、亚马逊、谷歌，以及Facebook这四家最主流的业界里做人工智能基础研究的科学家贡献出来的深度学习算法。它利用了庞大的GPU计算能力，以及FPG的计算能力才能实现。但是现在已经到了一个瓶颈。以微软的CNTK为例，我们现在152层的深度神经网络。为什么这么多层次，我刚才讲过了，层次越深，代表一张照片中信息是越多的。但是现在已经到了一个瓶颈，我们用再多的计算能力，再快的计算能力，有一些内容还是分别不出来。

这依赖于所有科学家，包括计算科学、数据科学、神经科学、脑科学一起去做这件事，才能保证未来深度学习的过程。

深度学习到底能带来什么？我刚才一直强调人和机器之间的交流，人和人之间情绪的判断。那怎么才能达到一个更自然的环境呢？这是微软小冰，它会唱歌，尤其会写诗，刚刚也出版了一本诗集《阳光失去了玻璃窗》，朦胧派的诗集。人工美少女小冰的进化完完全全是人工智能的背后，深度学习背后对它的训练。

训练的结果是什么呢？大家先听一段，这是去年4、5月时小冰刚第一版出来，它全合成唱歌的声音。它不是想模仿某一个人的个性，如果小冰要去模仿，直接把张韶涵的原声采集过来学习，可能就很清楚了。但是我们特意不想把它模仿某一个特定的个性，我们就想让它就是它，以它的个性方式来唱出这首歌。一年前的这首歌不知道大家听出来没有，金属音特别重，变化之间特别深。从去年到今年9月，持续一年训练以后，我们再来听听今年它唱这首歌时是什么样的声调。仔细想想刚才的声音，它非常接近人的自然发音，尤其音调之间起承转合，非常符合人的声音。

这个过程就是刚才讲的大量数据，大量人发声的过程，大量人音调之间转合的方式，给它做训练，最后得到这样一个结果。我们能不能在未来，跟AI相关的课程学习当中，跟我对话的机器老师、AI老师，能不能它的语调自然一点。我想这就是一个非常好的例子。

所有背后的技术，最基础的是认知服务，认知服务实际上是深度学习的结果，谁都可以去用，任何一个开发者都可以去用。你也可以自己训练出另外一个小冰出来，所以这是一个基础的架构和服务。

两年前我们和英国BBC合作，这个板子叫迈克Bid，现在在国内的各大电商网站都能买到，很便宜，很薄的板子。它有LED显示能够加一些传感器，最右上角这块我们结合了一个在线编程的界面。谈到编程大家不要错误理解，我一定要学C++或者是JAVA之类的语言。这个编程完全面向中小学生甚至是幼儿园。它是插件式的。我们不要去写Hello Word，也不要写if什么。我想让这个板子出一个笑脸出来，我就把笑脸插进去；我想让这个板子出一个哭脸，我就把这个哭的放进去；我想让板子获取温度，我就把温度的标签给加上去。非常简单。它背后就是我们认知服务里面的API，再加上微软同事和BBC同事他们一起做的这样一个架构。

这里我想传递另外一个信息，我们不是想教中小学生去学编程，我们想改变人工智能认知的一个思维方式。人工智能在各个行业里的使用可能会在未来改变我们的思维模式，由确定性思维模式改变为不确定的思维模式。这种思维模式是需要训练的。我们现在很多人很难马上改过去，你不经过训练习惯是改不了的。思维模式也是一样。我们想通过机器板卡和外界感知这几个方面，从小朋友训练人工智能给我们带来的所谓不确定思维方式。

人工智能给我们带来了很大便利，甚至改变了我们的行业。我想送给大家一句话，今天的异想天开将是明天的常态。人工智能会给所有行业带来改变，人工智能也会对我们的思维模式产生改变。谢谢大家！