AI 科技评论消息,2 月 21 日,百度 NLP 团队提交的 V-Net 模型以 46.15 的 Rouge-L 得分位列微软的 MS MARCO 机器阅读理解测试第一名。目前人类评测 Rouge-L 得分为 47;BLEU-1 得分为 46。
据了解,百度提交的 V-NET 模型使用了一种新的多候选文档联合建模表示方法,通过注意力机制使不同文档产生的答案之间能够产生交换信息,互相印证,从而更好的预测答案。
AI 科技评论了解到,除了百度位列第一外,凭借 Microsoft AI and Research 提交的 S-Net、R-Net、ReasoNet,二、三、四名均由微软摘得。此外,新加坡管理大学与德国人工智能研究中心也紧随其后。

MS MARCO 全称为 Microsoft MAchine Reading Comprehension,即「微软机器阅读理解」,官网资料显示其正式发布于 NIPS 2016。这是一套由 10 万个问答和 20 万篇不重复的文档组成的数据集。
在机器阅读理解领域,想必大家更为熟悉的是斯坦福大学发起的 SQuAD(Stanford Question Answering Dataset), AI 科技评论此前也有过不少相关报道。SQuAD 是行业内公认的机器阅读理解领域的顶级水平测试,它构建了一个包含十万个问题的大规模机器阅读理解数据集,选取超过 500 篇的维基百科文章。在阅读数据集内的文章后,机器需要回答若干与文章内容相关的问题,并通过与标准答案的比对,得到 EM(精确匹配)和 F1(模糊匹配)的结果。讯飞与哈工大联合实验室、微软、阿里巴巴、腾讯等国内外知名研究企业及机构都是 SQuAD 榜单上的常客。
与 SQuAD 的最大不同之处在于,MARCO 数据集中的问题全都基于来自微软必应搜索(BING)引擎和微软小娜人工智能助手(Cortana)的已匿名处理的真实查询。此外,相关回答是由真人参考真实网页编写的,并对其准确性进行了验证。可以说,数据集的建立完全是根据用户在 BING 中输入的真实问题模拟搜索引擎中的真实应用场景,其研发团队也曾表示,「MS MARCO 是目前同类型中最有用的数据集,因为它建立在经过匿名处理的真实世界数据基础之上。」
目前搜索引擎只能针对用户的提问回答一些简单问题,可以回答复杂问题的系统仍然处于起步阶段,而普通人日常想获取一些琐碎复杂问题的答案,则需要在搜索引擎提供的结果中再次进行筛选、分析和整理。这些并无明确答案或存在多个可能答案的查询,是微软发布这一数据集希望攻克的阅读理解高堡。
在每一个问题中,MARCO 提供多篇来自搜索结果的网页文档,系统需要根据这些文档来回答给定的问题。就像人类在搜索引擎给定的结果中自行筛选信息一样,这些文档中是否有对应的答案、在哪一篇文章中,都需要系统自行判断,甚至还需要结合多篇文章做出提炼与总结,而这也对机器的阅读理解能力提出了更高的要求。
「此次在 MARCO 的测试中取得第一,只是百度机器阅读理解技术经历的一次小考,」百度自然语言处理首席科学家兼百度技术委员会主席吴华表示,「我们希望能够与领域内的其他同行者一起,推进机器阅读理解技术和应用的研究,使 AI 能够理解人类的语言、用自然语言与人类交流,让 AI 更『懂』人类。」
相关资讯
最新热门应用
非小号交易平台官网安卓版
其它软件292.97MB
下载
币交易所地址
其它软件274.98M
下载
iotx交易所app
其它软件14.54 MB
下载
zt交易所安卓最新版
其它软件273.2 MB
下载
币拓交易所bittok
其它软件288.1 MB
下载
u币交易所平台app
其它软件292.97MB
下载
热币全球交易所app官网版
其它软件287.27 MB
下载
多比交易平台app
其它软件28.28MB
下载
币赢交易所app官网安卓版
其它软件14.78MB
下载
toncoin币交易所安卓版
其它软件48MB
下载