图像识别领域四大天王谁最强？谷歌实力碾压微软IBM亚马逊

发布时间：2019-08-12 浏览数：

【新智元导读】作为机器学习最热门的领域之一，图像识别是判断AI聪明与否的一个重要标准。作为主要的参与者，微软、IBM、谷歌和亚马逊在这项技术上投入巨资，那么，到底哪一家做得更好呢？研究发现，谷歌在图像识别方面取得了81.7％的准确率，仅次于人类，四家中排名第一。

机器学习最热门的领域之一是图像识别。有许多主要参与者在这项技术上投入巨资，包括微软，IBM，谷歌和亚马逊。但哪一个做得最好？

Perficient Digital的研究团队发布了一份对这四家科技巨头图像识别的研究报告。报告显示，谷歌在图像识别方面取得了81.7％的准确率，在四家中最高；IBM在图像识别方面取得了55.6％的准确率，在四家中最低。

本次研究涉及的图像识别引擎包括：

亚马逊AWS Rekognition谷歌VisionIBM Watson微软Azure Computer Vision

本次研究使用了2000张图像，分为四类：

图表风景人物产品

每个图像识别引擎返回的标签总数如下：

研究团队使用两种不同的方法来评估每个引擎：

来自每个图像识别引擎的标签的准确度（500个图像），称之为“准确度评估”。来自图像识别引擎的标签是否是描述每个图像的最佳匹配（2000个图像），这被称为“匹配人类描述评估”。一、图像识别引擎标签准确度

在准确性评估中，对500张图像中的每一张，图像识别引擎的每一个标签都要评估其是否准确。有“准确、不准确和我不确定”三个选项（只有1.2%的标签被标记为“不确定”）。

这里的区别在于标签可以被判断为准确，即使它是人类在描述图像时不太可能使用的标签。例如，室外场景的图片可能被引擎标记为“全景”，并且完全准确，但仍然不是用户想要描述图像的标签之一。

考虑到这一点，下表是每个引擎的得分：

很明显，赢家是谷歌Vision（准确率81.7%），亚马逊AWS Rekognition排在第二位（准确率77.7%），微软Azure排名第三（准确率75.8%），IBM Watson排名最后（准确率55.6%）。

置信水平

以上分数涵盖每个引擎返回的所有标记。但是，每个引擎也会返回他们对每个标记的置信度的分数。这使它能够返回更具推测性的标签。以下是每个引擎的置信度得分汇总的数据：

以下是引擎具有90％或更高置信度的所有图像：

这些数据令人着迷的是，在纯粹的准确性基础上，四个引擎中的三个（亚马逊，谷歌和微软）的得分高于人类标记，最高置信度超过90％。

当我们将置信水平降至80％或更高时，让我们看看这是如何变化的：

在这个级别，我们看到“人手标记”的分数基本上与我们在亚马逊AWS Rekognition，谷歌Vision和微软Azure Computer Vision中看到的分数相同。

可以预期，给出低置信度的标签的准确性会降低，事实证明是这样的：

对于接下来的几个图表，研究人员通过图像识别引擎在许多类别的置信水平上看准确性。

亚马逊AWS Rekognition

谷歌Vision：

IBM Watson：

微软Azure Computer Vision：

在所有的引擎中，我们都可以看到，它们在分配给更高置信度分数的标签上做得更好。

二、图像识别引擎与人类的想法相匹配的程度如何？

匹配人类描述评估的不同之处在于，研究人员向用户呈现了每个引擎为每个图像提供的前五个最高置信度标签，而没有告诉他们来自哪个图像识别引擎。

然后，在2000张图像中，研究人员要求用户选择并排列他们认为最能描述图像的前五个标签。与之前的数据集不同，这里的重点是最佳匹配人类的想法。这次评估的目的是看看哪个引擎最接近这一点。

对于数据，让我们从平台的平均得分开始，总计：

如图所见，“手动标记”图像的得分远高于任何引擎。这是可以预料到的，因为手动标记的标签的图像描述是准确的。

四个图像识别引擎和人类水平之间的差距非常大。值得注意的是，四个引擎中Google Vision明显性能更高，但手动标记结果的选择频率仍远高于任何引擎给出的结果。

总之，人类仍然可以比机器API更好地识别图像，并对其他人解释自己的看法。这是因为几个因素的作用，其中包括语言的特异性、具备广阔背景知识基础的引擎常常会关注对人类没有重大意义的属性，因此虽然这些属性是准确的，但人类更有可能描述他们的感受，更准确地识别图像。

下图为按图像类型分类的分数视图：图像识别领域四大天王谁最强？谷歌实力碾压微软IBM亚马逊(13)

按图像类别划分很有意思。人类手动标记的标签仍是每个类别中目标最多的标签。Google Vision在四个类别中的三类中获胜，亚马逊AWS几乎没有在任何类别中占据优势。

当引擎标签的置信度为90％以上时，四个引擎中的三个得分高于人工标注标签。

三、图像识别引擎的词汇表

本研究最有趣的发现之一就是不同平台上词汇引擎的变化情况。以下是参与比较的四个平台的原始数据，以及我们的“手动标记”结果。

当然，根据图像类型不同，词汇发生变化是自然而然的事情（详细数据以下给出）。

下图为AWS Rekognition的结果：

Google Vision:

IBM Watson:

微软 Azure Computer Vision：

如上所见，你可能已经注意到了，我们将数据分成了一个个单词，但不少数据标签长度都不止一个单词，而且标签的平均长度会随着不同引擎发生一定程度的变化，下图所示为每个标签下的平均单词数量。

最后，是对于每个图像识别引擎每次反应的平均字数。

每种引擎下的等级水平

总体看来，所有的引擎距离人类描述图像的方式还有很大的距离。

其他特征：IBM Watson是“艺术家”，AWS是“时尚达人”

IBM Watson最爱五颜六色：其API具有最独特的颜色变化组合和最多的颜色种类。

Google Vision和微软Azure Computer Vision也经常提到“黄色”，但都比不上IBM Watson的“艺术家”气息。

Microsoft Azure Computer Vision可以描述图像质量：引擎会返回“模糊”以及“像素级”的结果。

进行时词汇：IBM Watson有112个回复以进行时“ing”结束，Amazon AWS Rekognition这样的回复结尾有62个，Microsoft Azure Computer Vision有87个，Google Vision有103个。

IBM Watson喜欢高度描述性的词语, 并为这些词汇添加语境：pinetum（松树），牛轭（河），LED显示屏（计算机/电视），rediffusion（分布），'蔓藤花纹（装饰），'dado（骰子），'登山杖（攀登装备）。

实际上，IBM Watson在很多方面都过于极端地描述了图像。这可能导致IBM Watson面临的一些准确性上的问题。从积极方面来说，这种对高度描述性词语的关注应该使用户更容易找到与其查询请求相关的图像。

AWS Rekognition是一个“时尚达人”：亚马逊AWS Rekognition喜欢服装。它比其他API更能识别出短裤、裤子和衬衫。

Google喜欢猫，IBM Watson喜欢狗：谷歌更善于识别出猫的品种，IBM Watson更善于识别出狗的品种，并对它们有更具体的了解，甚至可以具体到“德国短毛指针犬”。Microsoft Azure在猫的识别上仅次于Google Vision，位居第二。

总结

很明显，Google Vision是这场比拼中的赢家，在原始精度和与人类描述图像的一致性上处于领先。

IBM Watson在测试中排名最后，但应该注意到IBM Watson在自然语言处理方面表现优异，而NLP这不是本研究的重点。它是迄今为止唯一一家为自定义NLP模型创建构建完整GUI的主要AI供应商，Watson平台不仅允许分类，还允许通过该GUI提取自定义实体。

同样令人兴奋的是，当置信度大于90％时，四个引擎中的三个引擎的原始精度得分要高于人类手动标记。这是图像识别引擎性能和发展潜力的强有力的证明。不过，从图像识别引擎以类似人类的方式描述图像，并以此进行图像标记的表现来看，未来还有很长的路要走。

原文链接：

https://www.perficientdigital.com/insights/our-research/image-recognition-accuracy-study