微软亚洲研究院梅涛: 计算机视觉发展仍有巨大空间, 视频理解难于图片理解

发布时间：2017-10-10 浏览数：

计算机视觉是人工智能的一个应用领域，其主要功能是识别图像中的内容。部分创业公司以计算机视觉为发力点，寻找适合自己的场景，希望在商业落地上有所突破。对于投资人与创业者来说，计算机视觉作为一个技术壁垒较高的领域，其发展程度与应用领域是最能吸引大家关注的。

为此健一会专门请到了微软亚洲研究院资深研究员梅涛，请他向大家介绍目前计算机视觉的发展水平与实际应用情况。

本篇实录系根据健一会（ID：jianyihui2011）沙龙第197位主讲人梅涛在健一会与艾瑞投资研究院联合主办的“人工智能的商业化变现”专题沙龙上的精彩分享整理而成。原标题为《深度视觉理解》，现标题为健一君所加。

根据嘉宾意见，分享内容已删去部分内部信息。

我在微软待了十二年，一直在做计算机视觉和多媒体分析。我们在人工智能领域研究了很多年，所做的课题一直没有变化。这个领域里有很多钉子，我们只不过是不时地换把锤子敲一敲钉子，把钉子稍微往木板里敲一点。要想把一颗颗钉子完全敲进木板里，过程还是很漫长的。

大家现在都在谈人工智能。人工智能领域很广，包括机器学习，机器学习里又包括深度学习，不能把人工智能和深度学习这两个概念混淆在一起。计算机视觉是人工智能的一个应用领域，它就相当于把相机连上电脑，电脑可以将相机所看到的东西一一描述出来。

我也看过一些相关领域的商业BP，一些创始人说我们这个算法有多么多么了不起，这个很可笑，按照我们学界的观点，绝大部分算法的领先周期只有六个月。真正的高手，最多花六个月就可以复现乃至超越别人的算法。

很多人说计算机视觉到明年就可以达到大学生的水平了，我觉得这种说法非常不靠谱。保守一点说，现在计算机视觉在某些视觉认知的任务上可以接近三到五岁儿童的能力，这种说法会比较客观一些。

机器视觉是否能够超过人眼视觉？肯定不能这么说，因为比较的维度不一样。假如现在有一张图片，同时请一台机器和一个人对其进行标注，那一定是人类标注的比机器好，而且更为精细。如果拿出1000张图片请机器和人来标注，要求1秒钟内完成，那一定是机器做的比人好。

视觉理解的五层境界

图像的最小单位是像素。对于计算机视觉来说，最难的是判断每个像素属于哪个类别，也即语义分割，这需要大量人工进行标注，没有哪家企业愿意花钱雇人做这件事。

如果觉得语义分割过于精细，可以不去关心每个像素处于哪个位置，只需要识别图像中的物体究竟是人还是马，人和马的位置在哪里，也即物体检测。

还有一种情况是机器不去关心图像中马和人所处的位置，只是去识别图像中有什么物体就行了，这叫图像分类。

第四种情况是，你给机器一张图，机器不但要解读出图中有哪些物体，或者有哪些词，然后还要把这些词连成一句话。这个有点像看图说话：我给你一张图，请你说出一段文字，这段文字是自然语言，且不能有任何语法错误。

另一种看图说话的方式是看图回答问题。我给机器一张图，它要回答我的问题：图中有多少个人？图中出现的马分别是什么颜色的？

第五种情况是讲故事，这个也是我们微软之前在做的一个技术。大家现在喜欢出去旅游，旅途中拍了很多照片，回来分享到博客上。现在机器可以自动帮你写一些博客文章，通过图片把图中的内容以文字的形式表述出来。

视觉理解在“微软小冰”中的应用

微软有一个名叫小冰的聊天机器人，会自动给用户视频添加评论。小冰的视频自动评论功能于两年前上线，上线第一个月，它的粉丝就涨了60%，而且有三分之一的用户不知道小冰是机器人，因为我们在训练小冰时，让它永远非常乐观地去评价用户的内容，假如夸一个用户长得好看，它不会只是泛泛地夸用户美，而是会具体指出你是眉毛好看还是身材比较好，所以大家都很喜欢它。

小冰现在还会写诗，虽然还有很多地方需要不断改进，但这个功能推出后，用户很喜欢。我们没让小冰写古体诗，而是选择了现代诗，按照今天的流行语，叫“freestyle”。机器会通过识别图片内容，来判断图片中的意象是明亮的还是阴暗的，是喜悦的还是悲伤的，在确定图片的基本情绪后，自动生成诗句。

用计算机视觉设计封面

我们两年前做了一件事情：用人工智能来设计封面。人类在设计封面时，通常会考虑文字应该放在封面的什么位置，该用什么样的字体和颜色，没受过专业训练的小白用户一般不知道该怎么操作。

我们设计的机器视觉模型结合了心理学、广告学和颜色方面的理论。比如说一张以人物为主体的封面，主标题通常会放在人物视线所及的方向，因为视线代表着读者关注的焦点。食品类杂志封面很少用蓝色或鲜红色，这两种颜色都比较容易影响食欲。很多快餐店喜欢用橘红色作为主色调，橘红色容易让人焦虑，快餐店为了保证翻台率，当然不希望客人长时间待在店里。

机器视觉模型的工作原理是：当它拿到封面图片后，会自动分析图片主体在哪里，然后做色彩分析，判断其有几种主色调，每种主色调与什么颜色对应会比较和谐，机器甚至还可以给文字加特效，比如加一幅半透明的背景图等等。

机器识别在内容管理上的应用

平台上用户上传的内容多了之后，需要对内容进行管理，内容管理最典型的做法是打标签，在真实世界里，标签无穷无尽，人类所认识的花就有25万种，鸟至少有1万种，所以要想精细地打好标签非常难。

我们对于不同物体所打标签的精细度也不一样，比如我们对于鸟和狗这两种类别就做的很细，因为美国人和中国人都喜欢这些小动物。在识别车辆的时候，我们做了一个实验，从一个二手车网站上把所有车型照片全部下载下来让机器识别，识别率高达99%。我们对于飞机、食物和医疗相关的标签打得不够完整，尤其是医疗，我们没有特别优质的大数据来做支持。

在视频领域，我们的机器可以识别出1000种以上物体和500种以上动作，用户在搜索视频时就可以通过这些标签找到相关视频。识别人体动作有什么用处呢？现在有很多健身APP，假如嵌入机器识别功能，这些APP就可以判断出用户的动作到底做得是否标准、规范并为其打分。

利用计算机视觉做二次编辑

有了视频和图像，用户总要进行消费，也就是编辑或改动。我们为图片做各种滤镜，图像的滤镜不新鲜，国内很多公司也在做这个事情。我们研究院计算机视觉组最近做的一个研究还蛮酷的，叫style transfer（风格转换），就是机器可以分析任何一张图片的风格，并将这种风格应用到另外一张图片中去。

我们还可以对视频中的内容进行分割与重新组合，比如将视频A中的人物抽取出来，放到视频B的场景里去。当然。视频的分割比较费时间，因为机器需要对动态画面进行计算与处理。

最后，我想以“人工智能之父”马文·明斯基说过的一句话作为今天沙龙分享的结尾：没有一台电脑可以具有自我意识。不过，我们人类在大多数时候其实也一样。

[问答环节]

您看好教育行业的哪些场景？

我在美国曾经看过一个教育产业的初创公司。他们有一项业务，在教室黑板上面布置很多台相机，每台相机会盯着一个学生的眼睛，通过相机记录的情况可以分析学生的注意力、听讲情况和上课效率，从而向家长反馈孩子在校内的情况，我觉得这个项目很有趣。此外还有我刚才讲的“看图说话”，这项技术很有趣，但目前还没有做到刚需。我知道有些公司目前在研究试卷的自动批改技术。如果我们完全依赖这项技术来判卷，那就比较危险，因为即便准确率达到了99.9%甚至更精确，但只要有0.1%的错误率，就等于改变了一个考生的命运。同一个技术，不同的使用方式会带来不一样的商业场景和价值。我觉得不论是计算机视觉来还是人工智能，和机器学习相关的所有方法，都没有一个0或1的标准，所有的标准都是以一个百分数来呈现的，这个标准是多少需要根据具体场景来设定。

目前机器对商品的识别是不是一件容易的事情？

如果你在ShopWind(一款网店程序)搜索一个商品，系统会自动的把这个商品的位置圈出来，点击之后还会把类似的产品都显示出来，机器识别在商品这个领域更容易落地，因为商品的数据集会更固定一些。

您属于微软哪一个组？

大家可能对微软研究院不太熟悉，这里做一个简单的介绍。微软有大约11万名员工，其中有大约1000名研究员，分布在微软的几个研究机构，其中微软亚洲研究院有大约有200名研究员，300名实习生。内部会划分几个方向，比如多媒体、自然语言处理、机器学习等等，我们这个组叫多媒体搜索和挖掘组（Multimedia Search and Mining)。

我们考察过一些做渠道检测的公司，这些公司帮ToC的厂家检测货品的堆放，他们有足够的照片数据，然后找了一个Open Source（开放源代码）来做这件事，让我们很吃惊，觉得几个人就能做图像识别了，所以这项技术已经如此容易了吗？

确实可以做出一些成果，至少可以做出一个小样给你，让不懂行的人觉得很惊艳。我们的研究可以告诉大家市场上有某项技术可以使用，其它公司可以利用这项技术做出很多东西，但我们微软研究院会在很多方面比这些公司更超前，因为这些公司无法孕育也创造不出这种技术或更尖端的算法。

在商品视觉方面，你们对视频有什么理想？做到何种程度？

我们希望能够识别到像素级，包括所有的物体、背景。距离实现还很远，无法预测。但是在一个特定的场景中，一些有限集合的物体，如果只做一些关于人的，可能会有不错的效果，但也不敢说能做到百分之百。现在可以实现的是在视频里面检测出一些物体和事件，检测出来一些物体，我们希望能够识别出越来越多的物体。

我觉得深度学习在某种程度上还要做视频理解，这个东西似乎很强大，什么都能做。

对。图片理解使在一个封闭的集合里，哪怕封闭的数据集很大，深度学习也能接受这些数据，它在很短的时间内就可以超过人的准确率。但是在视频领域并非如此，难度很大，因为视频是很长的一些序列，现在目前最好的算法在视频理解上的准确率离在图片上的准确率还比较远。

我看过一家公司，主要研究人脸识别，如果在一些场合监控看不到人脸，只能看到一个人的形体，他们的技术可以实现通过人的形态去追踪，声称识别率能够达到95%。目前这个技术实际发展到了什么程度，客观的识别率怎么样？

据我了解，这项技术离商用还比较远。实际准确率有待提升，需要面对光照、角度、有遮挡等很多类似的问题。我举个例子，比如人脸识别，一旦人脸基数到10万以上，99%的算法的准确率都会降到70%左右，如果人脸基数到了100万以上，这个识别率还会下降，识别率和基数有很大关系。刚刚说的这家公司号称95%的识别率，还是要看它有多少形体基数，可能面对10个人可以达到95%，但是面对更多人就不好说了。

“微软小冰”有没有可能成为一个学科老师？

类似的产品已经有了，叫“小英”，教英语学科的，可以在微信里面搜到。

我就来自“微软小冰”的团队。在教育场景中，机器人最大的问题就是语义理解，只要语义理解能够突破，后面的很多问题都可以迎刃而解。梅老师有没有预估过，语义理解大概会在多久以后突破？

我不是这方面专家，对于这个答案不太清楚。这项技术和人相关，一个人在不同年龄的理解能力的都不一样，很难界定，因为他必须要不断的学习。在真实的场景下，语义理解和话题转换都很难，比如说你聊到一半不想这个话题了，切换话题的时候，现在的“小冰”可能就懵了，这也是研究中的一个难点。另外“小冰”对你的理解可能现在还没有那么深入，比如它对一个成年男性、对一个小孩、对一个老人聊的话，内容目前都是一样的，所以聊天机器人还有很多方面需要进步。（完）

微软亚洲研究院梅涛: 计算机视觉发展仍有巨大空间, 视频理解难于图片理解(1)

■ 梅涛（微软亚洲研究院资深研究员）

国际模式识别学会会士，美国计算机协会杰出科学家，中国科技大学和中山大学兼职教授博导。主要研究兴趣为多媒体分析、计算机视觉和机器学习，发表论文 100余篇（h-index 43），先后10余次荣获最佳论文奖，拥有40余项美国和国际专利（18项授权），其研究成果10余次被成功转化到微软的产品和服务中。他的研究团队目前致力于视频和图像的深度理解、分析和应用。他同时担任 IEEE 和 ACM 多媒体汇刊（IEEE TMM 和 ACM TOMM）以及模式识别（Pattern Recognition）等学术期刊的编委，并且是多个国际多媒体会议（如 ACM Multimedia, IEEE ICME, IEEE MMSP 等）的大会主席和程序委员会主席。