科技高速发展的社会,人与人之间的交流越来越密切,随之带来了庞大的数据量,然而对于多维度用户而言,在训练个性化模型的过程中,数据依然很少,那么,如何解决数据稀疏问题,挖掘出更多可用数据?如何将数据高效运用于互联网产品的主要承载形式——推荐系统?带着诸多问题,我们采访了微软亚洲研究院(MSRA)资深研究员谢幸博士,一起聊聊异构数据与推荐系统的那些事儿。

谢幸博士,微软亚洲研究院社会计算组资深研究员,并任中国科技大学兼职博士生导师。他分别于1996年和2001年在中国科技大学获得计算机软件专业学士和博士学位, 2001年7月加入微软亚洲研究院。他在国际会议和学术期刊上发表了200余篇学术论文,拥有50余项专利,是ACM、IEEE高级会员和计算机学会杰出会员。
12月7日-9日,中国大数据技术大会(BDTC 2017)将于北京新云南皇冠假日酒店举行,谢幸博士作为“推荐系统论坛”演讲嘉宾,将分享题为《结合跨平台异构数据的推荐系统》的演讲,欢迎与会者现场参与讨论。
个人发展与团队研究
CSDN:请谈谈您及团队在现阶段的研究侧重点或下一步研究和实践(例如应用到哪些领域)计划?
谢幸:我们研究数据挖掘的子课题:用户画像和推荐系统,关注“怎样用数据来刻画一个人”,利用用户产生的数据反过来更深入地了解用户。推荐系统是比较常见的应用,有很大的商业前景,它可以看作用户画像的一个重要应用,用户画像的用途很广,可以用于个体和群体数据建模、个性化或预测等。
现阶段研究重点主要为深度学习与推荐系统的结合。深度学习在计算机视觉、语音、自然语言处理都有很好的应用,在推荐系统里的应用也是最近几年的研究热点,我们关注怎么将这方面的应用落地——与微软重要的产品、项目和工程结合,这对于系统和产品设计都有一定要求。另外,我们也关注知识图谱与推荐系统的结合,并将研究成果真正应用到提高推荐性能上,比如微软的广告系统、新闻搜索,以及小冰、小娜这些个性化产品。
成为MSRA研究员的必备特质
CSDN:您是微软亚洲研究院资深研究员,您希望看到新加入的研究员们具有什么样的特质?
谢幸:新加入的研究员在具备学者精神的同时,团队合作和交流表达也是必备特性。对于做研究,交流能力是比较重要的,尤其是现在,需要将个人研究成果对外介绍,去与别人合作,以及去推广自己研究的项目。MSRA研究员在这方面的能力相比普通工程师强很多。除了这些软实力,研究员需要热爱技术和创新,不热爱技术,就不会想把事情做深。此外,过去偏学术理论的研究环境,对研究员的动手能力要求并不是特别高,但现在面对庞大数据以及项目,都要求研究员能够动手实现,所以动手和系统开发也是研究员必不可少的能力。
CSDN:您也是中国科技大学兼职博士生导师,您在教学过程中更看重什么环节?人才培养方面,您认为即将毕业的学生在基础研究和实践应用(与市场结合),哪方面更为重要?
谢幸:我在中国科技大学并不授课,博士生在学校学习课程,而在项目研究阶段,他们来到微软,由我指导完成比较系统的研究项目以及论文。“基础研究”和“实践应用”对于即将毕业的学生都很重要。学校不会发布或维护任何产品,做得更多的是基础研究。在微软,我们更强调学生参与产品项目。一方面,要达到博士的水平需要做很多技术研究,比如论文至少要有三个以上的创新工作,这些工作如果完全没有技术研究作基础,不可能做到;另一方面,我们也要求能够把这些研究成果应用到微软的产品里,不仅如此,这些研究需要成系统,对领域有深度的掌握。
CSDN:根据您的体会,哪些习惯对于研究与解决问题很有帮助?
谢幸:带着兴趣去探索“为什么”,这样对于研究是很有帮助的。有些人在很多事情上喜欢探究“为什么”,有时会问得深一点,比如通过用搜索引擎去查看背后的原因,很多时候,这种极客的方式都是靠兴趣驱动,如果只追求“差不多”,就不能探究很深。
异构数据在推荐系统的应用
CSDN:在演讲主题之外,请谈谈您目前还关注哪些技术与研究,为什么对这些话题感兴趣?
谢幸:我们在做数据挖掘的同时,也关注其它非计算机领域的学科,比如心理学、社会学、脑科学,我们本质上是对用户或者人进行研究。心理学研究人类心理现象,社会学是研究人类群体和社会行为还有脑科学研究人类大脑。这些与数据挖掘是可以相结合的,心理学里有一个方向是人格心理学,我了解以后觉得很有意思,可以用计算机做这件事情,后来我们与心理学结合完成了人格推测模型。我们也和社会学领域的教授合作,脑科学也是最近比较受关注的,深度学习的很多方面都受到了脑科学的启发,微软与中科大有些联合研究项目,就与跟脑科学有关。
CSDN:在您的研究领域之中,最希望哪些技术能取得突破,为什么?或者在更长远的未来,您希望未来的研究者们能集中精力解决哪些问题,或实现哪些目标?
谢幸:除了知识图谱和深度学习,我最近对“可解释”较为感兴趣,很多人在讲可解释机器学习,“可解释”对推荐系统也很重要,比如用户在看到推荐内容时,可能在想,为什么你会把它推荐给我?有时推荐系统背后的算法比较复杂,用户并不知道推荐内容是如何出来的,如果我们能与他解释,一方面让用户觉得比较透明,另一方面用户会更倾向去看你推荐的这些东西,讲道理是一种说服的过程,所以我们最近也在做可解释推荐,并与心理学相结合。
CSDN:异构数据在推荐系统中扮演着怎样的角色?它能给推荐系统带来哪些优势?有哪些创新之处?
谢幸:用户数据稀疏是任何推荐系统或者用户画像都面临的问题,无论现在怎样谈论大数据,但对用户来说维度太多,数据相对而言还是很少,为了解决数据稀疏的问题,我们发掘还有哪些数据可用,异构数据实际上是在解决这个问题,挖掘其他的数据帮助推荐,比如用户曾发表的文字、图片、社交关系等就是异构的,其类型结构都不一样,对算法也会带来挑战。
异构数据在推荐系统中所扮演的角色是怎样解决数据稀疏的问题,当我们有了额外数据以后,推荐性能相应会提高,但如何结合这些异构数据,用什么方法,这就需要创新了,在这次演讲中,我会介绍相关的研究应用。
CSDN:“跨平台异构数据”可以解决哪些现有系统所不能解决的难题?未来这一技术还将有怎样的发展和应用前景?
谢幸:知识图谱里面包含了异构数据,将知识图谱的数据结合到推荐系统中,能建立比较丰富的用户表示和商品表示,本次演讲我会介绍跨平台数据如何结合,如何充分利用来自不同平台的数据。跨平台异构数据除了用于推荐也可做预测,用于其他个性化甚至在对话系统,总的来说就是怎么样去表达一些异构的或者跨平台不同来源的数据,这个表示的问题是相对在别的地方,其他很多场景可以通用的。关于跨平台异构数据这项技术,我们目前主要围绕推荐系统来做,应用于个性化的信息的浏览。
CSDN:此前您提出了“人格推测模型”,利用社交媒体上的异构数据来预测人格,在模型训练过程中,遇到了哪些困难?如何突破?
谢幸:难点是数据采集,要采集大规模的用户数据并不容易,当时我们想了一些办法,一方面通过微软小冰收集志愿者的数据,另外也自己标注了一组数据,有了这些数据,在训练模型的过程中,更多是设计模型来把这些异构数据用好,我们采用了较为通用的集成学习来搭建“人格推测模型”,针对不同数据设计不同特征,也结合了一些心理学的理论和词典来帮助建立特征。
CSDN:您在BDTC推荐论坛的报告,侧重点将放在哪些问题上,旨在解开哪些疑惑,希望观众从中收获什么启示?
谢幸:我将通过我们的研究项目来告诉大家怎样开展这方面的研究,也许听众未必直接使用这种算法,但对于同样类型的研究能带来一些启示。跨平台和异构实际上是两个点,我将围绕如何收集跨平台的异构数据来做推荐,以及如何设计这个模型来做介绍。
相关资讯
最新热门应用
非小号交易平台官网安卓版
其它软件292.97MB
下载
币交易所地址
其它软件274.98M
下载
iotx交易所app
其它软件14.54 MB
下载
zt交易所安卓最新版
其它软件273.2 MB
下载
币拓交易所bittok
其它软件288.1 MB
下载
u币交易所平台app
其它软件292.97MB
下载
热币全球交易所app官网版
其它软件287.27 MB
下载
多比交易平台app
其它软件28.28MB
下载
币赢交易所app官网安卓版
其它软件14.78MB
下载
toncoin币交易所安卓版
其它软件48MB
下载