微软清华最近联合发布了学术图谱Open Academic Graph (OAG)。这个亿级图谱集成了目前最具规模与影响力的微软学术图谱(Microsoft Academic Graph, MAG)和清华大学的AMiner学术图谱。具体来说包含了MAG中1.66亿学术论文和AMiner中1.55亿论文的元数据信息。经过集成这些数据信息,生成了两个学术图谱之间近6千5百万链接(匹配)关系。

构建亿级开放学术图谱是一项极具挑战的研究工作,因为学术数据在不同图谱中呈现分布异构的特点,同名异义和异名同义问题严重,实现数据的精准匹配是一个重要挑战。下面举例说明这几个问题的难点所在。
数据异构。由于数据分布在不同数据源,可能面临数据异构的问题。比如论文作者可能存在不同的格式,如Quoc Le 和Le, Quoc。又如,论文所发表的期刊或会议有全称或缩写等多种形式。
同名消歧问题。同一名字可以表示多个实体,这也给图谱连接带来了很大困难。比如常见姓名通常是匹配的难点。在2016 年,中国重名最多的30 个姓名中,每个姓名重名人次达到20 万以上。对于论文来说,不同论文也可能有相同的题目,如:Data, data everywhere 在数据库中可对应多篇文章。

此外,要实现亿级数据集成,如何进行高效计算是另一个重要挑战。以AMiner为例,已经公布的论文数据就有1.55亿,而微软学术图谱的公开数据也达1.6亿,计算两个图谱匹配关系的算法复杂度一般来说是O(n2),这需要大量计算。我们设计了一个折衷方法,在既考虑精度的情况下,也利用哈希算法提高算法效率,将算法复杂度降低到O(nlogn)到O(n2)之间,目前每天能够完成约2千万篇论文的匹配,基本完成了合计3亿篇论文的自动匹配,并保证了高匹配精度。
开放学术图谱是开放学术组织(Open Academic Society)的一个重要项目。开放学术组织是微软、清华、艾伦人工智能研究所、亚利桑那大学、华盛顿大学、加州洛杉矶大学、澳洲国立大学等20个全球机构一起联合成立的学术组织,旨在推广学术数据的开放共享、加强学术交流与合作。开放学术图谱以集成全球不同学术知识图谱、公开共享学术图谱数据、提供相关学术搜索与挖掘服务为目标。具体包括:
集成丰富的学术知识数据。目前开放学术图谱的核心数据来自微软学术图谱(MAG)和AMiner学术图谱,下一步将集成更多其他学术图谱数据,包括扩充不同类型实体(如作者、论文等)的语义数据。通过数据集成和数据挖掘算法[3]将链接更多实体更精准和丰富的“画像”数据,包括论文的元数据、概念网络、研究领域、全文等和作者的基本信息(如:职位、单位、联系信息、国别、性别等)、研究兴趣以及论文列表等。
数据共享。通过共享不同的学术知识图谱,以及它们的链接关系,我们希望能够造福学术界对知识图谱、学者合作关系、学术主题挖掘以及大规模学术图谱连接等领域的研究。同时,欢迎更多来自学术社区的贡献来进一步增强开放学术图谱。
服务共享。我们希望设计更加智能的学术图谱连接系统,并提供相关的服务(如API),以方便更多人使用服务以及加入开放学术社区。
未来,我们将研究如何集成大规模异构学术图谱中不同类型的实体(如作者、会议等),公布更多学术图谱连接数据(如作者连接数据),设计更加智能的学术图谱连接系统并提供相应的服务。
相关资讯
最新热门应用
非小号交易平台官网安卓版
其它软件292.97MB
下载
币交易所地址
其它软件274.98M
下载
iotx交易所app
其它软件14.54 MB
下载
zt交易所安卓最新版
其它软件273.2 MB
下载
币拓交易所bittok
其它软件288.1 MB
下载
u币交易所平台app
其它软件292.97MB
下载
热币全球交易所app官网版
其它软件287.27 MB
下载
多比交易平台app
其它软件28.28MB
下载
币赢交易所app官网安卓版
其它软件14.78MB
下载
toncoin币交易所安卓版
其它软件48MB
下载