综合微软、AMiner两大学术图谱, 清华大学唐杰博士如何将Open Academic Graph亿级数据精准匹配

发布时间：2017-08-29 浏览数：

AI 科技评论按：近日，清华大学副教授、Arnetminer 创始人唐杰博士在微博上公开了开放学术组织（Open Academic Society）发布的亿级学术图谱——Open Academic Graph。据唐杰博士介绍，该图谱目前集成了两个最大的公开学术图谱：微软学术图谱（MAG）和AMiner学术图谱。具体来说，包含MAG中1.66亿学术论文和AMiner中1.55亿论文的元数据信息，经过集成，他们生成了这两个学术图谱之间近6千5百万链接（匹配）关系。

AI 科技评论第一时间采访了唐杰博士，详细了解到这个亿级学术图谱和与之相关的研究难点以及技术突破。

亿级数据，筹备半年

据唐杰博士介绍，目前这个学术图谱中的数据集主要是论文，包括论文中的题目、作者、会议、年份、摘要等元数据。不同于国内大的学术数据库知网、万方等以中文为主，Open Academic Graph中的论文主要是英文。如此庞大的数据集，究竟花了多久来筹备？时间是半年。

耗费如此多的时间和精力，做这个数据集的目的何在？唐杰博士表示，他们想要集成全球不同学术知识图谱，并公开共享学术图谱数据和相关学术搜索与挖掘服务。他具体说到了如下三点：

一是集成丰富的学术知识数据。目前开放学术图谱的核心数据来自微软学术图谱和AMiner学术图谱，下一步将集成更多其他学术图谱数据，包括扩充不同类型实体（如作者、论文等）的语义数据。通过数据集成和数据挖掘算法将链接更多实体更精准和丰富的“画像”数据，包括论文的元数据、概念网络、研究领域、全文等和作者的基本信息（如：职位、单位、联系信息、国别、性别等）、研究兴趣以及论文列表等。

二是数据共享。通过共享不同的学术知识图谱以及它们的链接关系，我们希望能够造福学术界对知识图谱、学者合作关系、学术主题挖掘以及大规模学术图谱连接等领域的研究。同时，欢迎更多来自学术社区的贡献来进一步增强开放学术图谱。

三是服务共享。我们希望设计更加智能的学术图谱连接系统，并提供相关的服务（如API），以方便更多人使用服务以及加入开放学术社区。

精准匹配，挑战颇多

庞大的数据量，要实现精准匹配肯定存在各种各样问题。唐杰博士坦言，在实际的研究过程中，由于学术数据在不同图谱中的分布异构特点，同名异义和异名同义问题严重。对于出现的问题，他也举了几个实例来具体说明。

一是数据异构问题。由于数据分布在不同数据源，可能面临数据异构的问题。比如论文作者可能存在不同的格式，如Quoc Le 和Le, Quoc。又如，论文所发表的期刊或会议有全称或缩写等多种形式。

二是同名消歧问题。同一名字可以表示多个实体，这也给图谱连接带来了很大困难。比如常见姓名通常是匹配的难点。在2016 年，中国重名最多的30 个姓名中，每个姓名重名人次达到20 万以上。对于论文来说，不同论文也可能有相同的题目，如：Data, data everywhere 在数据库中可对应多篇文章。

除了前面提到的两个问题，要想实现亿级数据的集成，如何进行高效计算也是另一个重要挑战。唐杰博士提到，以AMiner为例，已经公布的论文数据就有1.55亿，而微软学术图谱的公开数据也达1.6亿，计算两个图谱匹配关系的算法复杂度一般来说是O(n2)，这需要大量计算。

精进算法，不断突破

那么他们的团队究竟是如何处理这些问题的呢？

针对精度和效率，他们设计了一个折衷方法，同时考虑精度和效率。据介绍，他们的方法能将算法复杂度降低到O(nlogn)到O(n2)之间，目前每天能够完成约2千万篇论文的匹配，基本完成了合计3亿篇论文的自动匹配，并保证了高匹配精度。

该算法是在RiMOM算法的基础上进行了改进。

具体来说，我们设计了一个针对大规模论文匹配的异步搜索框架。对于AMiner中的每篇论文，我们根据题目在MAG中搜索可能匹配的论文，每次搜索的时间在几百毫秒到几秒不等。通过异步搜索的策略，可以做到平均每秒搜索到20余篇论文，使得大规模的图谱链接可以达到较快的速度。

为进一步提高自动集成速度，他们还尝试了两个新的匹配算法MHash和MCNN。

MHash是利用哈希算法，将每篇论文转化为一串二值编码，计算两篇论文之间的汉明距离。由于使用了哈希，该算法速度很快，但同时精度也有所降低，大概能保持93+%的匹配准确率。MCNN是基于卷积神经网络的深度学习方法，MCNN基于单词之间的相似度构造两篇论文的相似矩阵，然后利用卷积神经网络来捕捉文本之间的相似模式。

采访过程中，唐杰博士还提到，在实际的操作过程中，该方法可以缓解数据异构的问题。如：对于作者Quoc Le 和Le, Quoc，它们对应位置上的单词是不相似的，但是在相似矩阵中可以捕捉不对应位置上单词的相似度。该方法可以达到非常高的匹配准确率（98%+）。两个论文匹配算法均结合了论文的多个属性，如题目、作者等减轻同名消歧问题。

总结

唐杰博士的团队与微软联合发布的Open Academic Graph，不管对学界还是对业界来说都有极大的意义。一方面能助力大家当前的研究，另一方面也能吸引更多人来进行学术知识图谱相关的研究。

在未来，他们还将研究如何集成大规模异构学术图谱中不同类型的实体（如作者、会议等），公布更多学术图谱连接数据（如作者连接数据），设计更加智能的学术图谱连接系统并提供相应的服务。

最快今年年底，我们可能就能看到更大的数据集。