就在几小时前,斯坦福大学NLP组发推称,微软在昨天提交了一次SQuAD的测试成绩,重新夺回了该数据集测试榜单第一的位置。

在今年7月份,科大讯飞与哈工大联合实验室(HFL)提交的系统模型夺得第一,这也是中国本土研究机构首次取得该比赛的冠军。当时科大讯飞北京研究院院长王士进博士告诉,SQuAD的成绩刷新得很快,基本两周或者一个月就会被刷新一次(参见文章:《专访科大讯飞:成为世界第一,只是阅读理解系统万里长征的第一步》)。
SQuAD(Stanford Question Answering Dataset)是行业内公认的机器阅读理解领域的顶级水平测试,被誉为机器阅读理解领域的ImageNet。SQuAD与ImageNet具有诸多共同点:都是各自领域的顶尖测试集,负责人都是斯坦福的新锐青年学者,都得到了工业界和学术界的青睐。
在ImageNet负责人李飞飞的《ImageNet:Where we were,Where we are going》的演讲中,李飞飞曾提到这样一个细节:ImageNet团队试图在 2014 年结束竞赛的一个子项目,但却遭到了来自Google、Facebook 等公司的阻力,因为“产业界非常喜欢这个基准”,同样,SQuAD参赛者包括来自微软部及微软亚洲研究院、Salesforce、科大讯飞、谷歌以及卡内基·梅隆大学、复旦大学等知名企业研究机构和高校,而在目前排行榜上,前三名均来自企业界。

SQuAD数据集刚刚进入第二个年头,目前精确匹配(Exact Match)和模糊匹配(F1-Score)的结果在80%左右,从正确率看大致相当于ImageNet在2012年到2013年的水平,但从难度看,SQuAD要略高于ImageNet:人类在ImageNet测试的错误率在4%左右,而SQuAD人类的错误率大约在10%左右。此外CNN 对模式分类非常适合,其最初就是为识别二维形状而特殊设计的,而在阅读理解领域,虽然大家都在使用深度学习,但始终缺乏像2012年在ImageNet上横空出世的AlexNet这样的突破。
科大讯飞北京研究院院长王士进博士告诉,目前成绩较好的队伍基本都采用的是模型融合(ensemble)的方式,即对于问题提出不同的模型,然后对这些模型进行一个融合,而在融合的过程中,对模型的选型,即如何选择更优秀、鲁棒性更好的模型至关重要。
但也注意到,使用好的单一模型取得的成绩与模型融合相差不大,微软AI研究院在这个月提交的一个单模型测试结果就得到了第五名的成绩。由于模型融合会增大对应的计算量,最终工业界是否会对正确率和消耗的资源进行平衡,开发一款“经济实用型”的产品还未为可知。
但工业界会永远为每一个零点零几的提升而努力。“我们技术上最近有一些升级,预计近期会更新一次结果。”王士进告诉。
相关资讯
最新热门应用
非小号交易平台官网安卓版
其它软件292.97MB
下载
币交易所地址
其它软件274.98M
下载
iotx交易所app
其它软件14.54 MB
下载
zt交易所安卓最新版
其它软件273.2 MB
下载
币拓交易所bittok
其它软件288.1 MB
下载
u币交易所平台app
其它软件292.97MB
下载
热币全球交易所app官网版
其它软件287.27 MB
下载
多比交易平台app
其它软件28.28MB
下载
币赢交易所app官网安卓版
其它软件14.78MB
下载
toncoin币交易所安卓版
其它软件48MB
下载