刚刚, 微软刷新了SQuAD记录...你猜啥时候会被刷下来?

发布时间：2017-09-22 浏览数：

就在几小时前，斯坦福大学NLP组发推称，微软在昨天提交了一次SQuAD的测试成绩，重新夺回了该数据集测试榜单第一的位置。

刚刚, 微软刷新了SQuAD记录...你猜啥时候会被刷下来?(1)

在今年7月份，科大讯飞与哈工大联合实验室(HFL)提交的系统模型夺得第一，这也是中国本土研究机构首次取得该比赛的冠军。当时科大讯飞北京研究院院长王士进博士告诉，SQuAD的成绩刷新得很快，基本两周或者一个月就会被刷新一次（参见文章：《专访科大讯飞：成为世界第一，只是阅读理解系统万里长征的第一步》）。

SQuAD（Stanford Question Answering Dataset）是行业内公认的机器阅读理解领域的顶级水平测试，被誉为机器阅读理解领域的ImageNet。SQuAD与ImageNet具有诸多共同点：都是各自领域的顶尖测试集，负责人都是斯坦福的新锐青年学者，都得到了工业界和学术界的青睐。

在ImageNet负责人李飞飞的《ImageNet：Where we were，Where we are going》的演讲中，李飞飞曾提到这样一个细节：ImageNet团队试图在 2014 年结束竞赛的一个子项目，但却遭到了来自Google、Facebook 等公司的阻力，因为“产业界非常喜欢这个基准”，同样，SQuAD参赛者包括来自微软部及微软亚洲研究院、Salesforce、科大讯飞、谷歌以及卡内基·梅隆大学、复旦大学等知名企业研究机构和高校，而在目前排行榜上，前三名均来自企业界。

刚刚, 微软刷新了SQuAD记录...你猜啥时候会被刷下来?(2)

SQuAD数据集刚刚进入第二个年头，目前精确匹配（Exact Match）和模糊匹配(F1-Score)的结果在80%左右，从正确率看大致相当于ImageNet在2012年到2013年的水平，但从难度看，SQuAD要略高于ImageNet：人类在ImageNet测试的错误率在4%左右，而SQuAD人类的错误率大约在10%左右。此外CNN 对模式分类非常适合，其最初就是为识别二维形状而特殊设计的，而在阅读理解领域，虽然大家都在使用深度学习，但始终缺乏像2012年在ImageNet上横空出世的AlexNet这样的突破。

科大讯飞北京研究院院长王士进博士告诉，目前成绩较好的队伍基本都采用的是模型融合（ensemble）的方式，即对于问题提出不同的模型，然后对这些模型进行一个融合，而在融合的过程中，对模型的选型，即如何选择更优秀、鲁棒性更好的模型至关重要。

但也注意到，使用好的单一模型取得的成绩与模型融合相差不大，微软AI研究院在这个月提交的一个单模型测试结果就得到了第五名的成绩。由于模型融合会增大对应的计算量，最终工业界是否会对正确率和消耗的资源进行平衡，开发一款“经济实用型”的产品还未为可知。

但工业界会永远为每一个零点零几的提升而努力。“我们技术上最近有一些升级，预计近期会更新一次结果。”王士进告诉。