就在几小时前,斯坦福大学NLP组发推称,微软在昨天提交了一次SQuAD的测试成绩,重新夺回了该数据集测试榜单第一的位置。
在今年7月份,科大讯飞与哈工大联合实验室(HFL)提交的系统模型夺得第一,这也是中国本土研究机构首次取得该比赛的冠军。当时科大讯飞北京研究院院长王士进博士告诉,SQuAD的成绩刷新得很快,基本两周或者一个月就会被刷新一次(参见文章:《专访科大讯飞:成为世界第一,只是阅读理解系统万里长征的第一步》)。
SQuAD(Stanford Question Answering Dataset)是行业内公认的机器阅读理解领域的顶级水平测试,被誉为机器阅读理解领域的ImageNet。SQuAD与ImageNet具有诸多共同点:都是各自领域的顶尖测试集,负责人都是斯坦福的新锐青年学者,都得到了工业界和学术界的青睐。
在ImageNet负责人李飞飞的《ImageNet:Where we were,Where we are going》的演讲中,李飞飞曾提到这样一个细节:ImageNet团队试图在 2014 年结束竞赛的一个子项目,但却遭到了来自Google、Facebook 等公司的阻力,因为“产业界非常喜欢这个基准”,同样,SQuAD参赛者包括来自微软部及微软亚洲研究院、Salesforce、科大讯飞、谷歌以及卡内基·梅隆大学、复旦大学等知名企业研究机构和高校,而在目前排行榜上,前三名均来自企业界。
SQuAD数据集刚刚进入第二个年头,目前精确匹配(Exact Match)和模糊匹配(F1-Score)的结果在80%左右,从正确率看大致相当于ImageNet在2012年到2013年的水平,但从难度看,SQuAD要略高于ImageNet:人类在ImageNet测试的错误率在4%左右,而SQuAD人类的错误率大约在10%左右。此外CNN 对模式分类非常适合,其最初就是为识别二维形状而特殊设计的,而在阅读理解领域,虽然大家都在使用深度学习,但始终缺乏像2012年在ImageNet上横空出世的AlexNet这样的突破。
科大讯飞北京研究院院长王士进博士告诉,目前成绩较好的队伍基本都采用的是模型融合(ensemble)的方式,即对于问题提出不同的模型,然后对这些模型进行一个融合,而在融合的过程中,对模型的选型,即如何选择更优秀、鲁棒性更好的模型至关重要。
但也注意到,使用好的单一模型取得的成绩与模型融合相差不大,微软AI研究院在这个月提交的一个单模型测试结果就得到了第五名的成绩。由于模型融合会增大对应的计算量,最终工业界是否会对正确率和消耗的资源进行平衡,开发一款“经济实用型”的产品还未为可知。
但工业界会永远为每一个零点零几的提升而努力。“我们技术上最近有一些升级,预计近期会更新一次结果。”王士进告诉。
相关资讯
最新热门应用
币客交易所app官网安卓
其它软件77.27M
下载zb交易平台官网app
其它软件223.89MB
下载币咖交易所链接
其它软件49.32M
下载atom交易所中文版免费手机版
其它软件223.89MB
下载尚亚交易所app手机版
其它软件225.08MB
下载欧联交易所app官网
其它软件34.34MB
下载bit交易所
其它软件105.39M
下载比特交易所app苹果版
其它软件287.34 MB
下载中币交易所最新版本
其它软件223.89MB
下载非小号交易所
其它软件47.76 MB
下载