AI 科技评论按:近日,清华大学副教授、Arnetminer 创始人唐杰博士在微博上公开了开放学术组织(Open Academic Society)发布的亿级学术图谱——Open Academic Graph。据唐杰博士介绍,该图谱目前集成了两个最大的公开学术图谱:微软学术图谱(MAG)和AMiner学术图谱。具体来说,包含MAG中1.66亿学术论文和AMiner中1.55亿论文的元数据信息,经过集成,他们生成了这两个学术图谱之间近6千5百万链接(匹配)关系。
AI 科技评论第一时间采访了唐杰博士,详细了解到这个亿级学术图谱和与之相关的研究难点以及技术突破。
亿级数据,筹备半年
据唐杰博士介绍,目前这个学术图谱中的数据集主要是论文,包括论文中的题目、作者、会议、年份、摘要等元数据。不同于国内大的学术数据库知网、万方等以中文为主,Open Academic Graph中的论文主要是英文。如此庞大的数据集,究竟花了多久来筹备?时间是半年。
耗费如此多的时间和精力,做这个数据集的目的何在?唐杰博士表示,他们想要集成全球不同学术知识图谱,并公开共享学术图谱数据和相关学术搜索与挖掘服务。他具体说到了如下三点:
一是集成丰富的学术知识数据。目前开放学术图谱的核心数据来自微软学术图谱和AMiner学术图谱,下一步将集成更多其他学术图谱数据,包括扩充不同类型实体(如作者、论文等)的语义数据。通过数据集成和数据挖掘算法将链接更多实体更精准和丰富的“画像”数据,包括论文的元数据、概念网络、研究领域、全文等和作者的基本信息(如:职位、单位、联系信息、国别、性别等)、研究兴趣以及论文列表等。
二是数据共享。通过共享不同的学术知识图谱以及它们的链接关系,我们希望能够造福学术界对知识图谱、学者合作关系、学术主题挖掘以及大规模学术图谱连接等领域的研究。同时,欢迎更多来自学术社区的贡献来进一步增强开放学术图谱。
三是服务共享。我们希望设计更加智能的学术图谱连接系统,并提供相关的服务(如API),以方便更多人使用服务以及加入开放学术社区。
精准匹配,挑战颇多
庞大的数据量,要实现精准匹配肯定存在各种各样问题。唐杰博士坦言,在实际的研究过程中,由于学术数据在不同图谱中的分布异构特点,同名异义和异名同义问题严重。对于出现的问题,他也举了几个实例来具体说明。
一是数据异构问题。由于数据分布在不同数据源,可能面临数据异构的问题。比如论文作者可能存在不同的格式,如Quoc Le 和Le, Quoc。又如,论文所发表的期刊或会议有全称或缩写等多种形式。
二是同名消歧问题。同一名字可以表示多个实体,这也给图谱连接带来了很大困难。比如常见姓名通常是匹配的难点。在2016 年,中国重名最多的30 个姓名中,每个姓名重名人次达到20 万以上。对于论文来说,不同论文也可能有相同的题目,如:Data, data everywhere 在数据库中可对应多篇文章。
除了前面提到的两个问题,要想实现亿级数据的集成,如何进行高效计算也是另一个重要挑战。唐杰博士提到,以AMiner为例,已经公布的论文数据就有1.55亿,而微软学术图谱的公开数据也达1.6亿,计算两个图谱匹配关系的算法复杂度一般来说是O(n2),这需要大量计算。
精进算法,不断突破
那么他们的团队究竟是如何处理这些问题的呢?
针对精度和效率,他们设计了一个折衷方法,同时考虑精度和效率。据介绍,他们的方法能将算法复杂度降低到O(nlogn)到O(n2)之间,目前每天能够完成约2千万篇论文的匹配,基本完成了合计3亿篇论文的自动匹配,并保证了高匹配精度。
该算法是在RiMOM算法的基础上进行了改进。
具体来说,我们设计了一个针对大规模论文匹配的异步搜索框架。对于AMiner中的每篇论文,我们根据题目在MAG中搜索可能匹配的论文,每次搜索的时间在几百毫秒到几秒不等。通过异步搜索的策略,可以做到平均每秒搜索到20余篇论文,使得大规模的图谱链接可以达到较快的速度。
为进一步提高自动集成速度,他们还尝试了两个新的匹配算法MHash和MCNN。
MHash是利用哈希算法,将每篇论文转化为一串二值编码,计算两篇论文之间的汉明距离。由于使用了哈希,该算法速度很快,但同时精度也有所降低,大概能保持93+%的匹配准确率。MCNN是基于卷积神经网络的深度学习方法,MCNN基于单词之间的相似度构造两篇论文的相似矩阵,然后利用卷积神经网络来捕捉文本之间的相似模式。
采访过程中,唐杰博士还提到,在实际的操作过程中,该方法可以缓解数据异构的问题。如:对于作者Quoc Le 和Le, Quoc,它们对应位置上的单词是不相似的,但是在相似矩阵中可以捕捉不对应位置上单词的相似度。该方法可以达到非常高的匹配准确率(98%+)。两个论文匹配算法均结合了论文的多个属性,如题目、作者等减轻同名消歧问题。
总结
唐杰博士的团队与微软联合发布的Open Academic Graph,不管对学界还是对业界来说都有极大的意义。一方面能助力大家当前的研究,另一方面也能吸引更多人来进行学术知识图谱相关的研究。
在未来,他们还将研究如何集成大规模异构学术图谱中不同类型的实体(如作者、会议等),公布更多学术图谱连接数据(如作者连接数据),设计更加智能的学术图谱连接系统并提供相应的服务。
最快今年年底,我们可能就能看到更大的数据集。
相关资讯
最新热门应用
				非小号交易平台官网安卓版
其它软件292.97MB
下载
				币交易所地址
其它软件274.98M
下载
				iotx交易所app
其它软件14.54 MB
下载
				zt交易所安卓最新版
其它软件273.2 MB
下载
				币拓交易所bittok
其它软件288.1 MB
下载
				u币交易所平台app
其它软件292.97MB
下载
				热币全球交易所app官网版
其它软件287.27 MB
下载
				多比交易平台app
其它软件28.28MB
下载
				币赢交易所app官网安卓版
其它软件14.78MB
下载
				toncoin币交易所安卓版
其它软件48MB
下载