Academic social networks: Modeling, analysis, mining and applications 2019翻译

Academic social networks: Modeling, analysis, mining and applications

摘要:

在快速增长的学术大数据背景下,社交网络技术最近引起了学术界和工业界的广泛关注。学术社会网络的概念正是在学术大数据的背景下产生的,指的是由学术实体及其关系形成的复杂的学术网络。有大量的学术大数据处理方法来分析学术社交网络丰富的结构类型和相关信息。现在各种学术数据都很容易获取,这让我们更容易分析和研究学术社交网络。本研究调查了学术社交网络的背景、现状和趋势。我们首先阐述了学术社会网络的概念和相关研究背景。其次,基于节点类型和时效性分析模型。第三,我们回顾分析方法,包括相关的指标,网络属性,和可用的学术分析工具。此外,我们还梳理了一些学术社交网络的关键挖掘技术。最后,我们从行动者、关系和网络三个层面系统地回顾了该领域具有代表性的研究任务。此外,还介绍了一些学术社交网站。本调查总结了当前的挑战和未解决的问题。

关键词:

学术社交网络、科学的科学、学术数据、学术应用

1.介绍

在Web 2.0的背景下,学术界和工业界进行了大量的研究,产生了大量的学术信息(吴等,2014)。学术投入和产出为研究科学的结构和演变创造了前所未有的机会(Fortunato等人,2018年)。随着科学技术的迅速普及和发展,数据正逐步从传统的存储模式向数字存储模式转变。学术信息基本上以科学文件、技术报告、项目提案、论文和其他类型资源的形式生成(Khan等人,2016年)。此外,来自世界各地的学者和研究人员不仅可以产生大量的学术文件,还可以通过专利和幻灯片等教育材料(夏等人,2017年)分享他们的研究成果。学术大数据(SBD)一词是由快速增长的学术资源产生的。

1.1 学术大数据

由于学术实体及其关系的快速增长,学术数据达到了“大数据”的“5V”特征,即容量、速度、多样性、价值和准确性(吴等,2014),这被称为学术大数据()。它包括会议论文、期刊文章、书籍、专利、幻灯片和实验数据等(Williams等,2014b)。有效利用SBD不仅对于学者了解科学发展和学术互动,对于决策者更好地解决资源共享问题具有重要意义,而且对于企业引导发展方向也具有重要意义。因此,如何从数百万SBD人中挖掘有价值的信息是一个紧迫的问题。

SBD分析的目的是在科学学的背景下解决学术问题。对SBD的深入分析不仅能使研究者更有效地利用现有资源,而且有助于学术界和工业界的发展。然而,对这一课题的系统研究还不够。以前,研究人员很难获得有效的学术信息,因为现有的工具和技术不满足SBD分析的要求。此外,的高维数和大尺寸给数据分析带来了一定的挑战(范等人,2014年)。然而,随着互联网的日益普及和相关分析技术的发展,我们现在可以充分利用这些有效信息。一系列在线数字图书馆

和学术服务平台,例如,AMiner,微软学术搜索(MAS),DBLP,谷歌学术(GS),美国国家科学与技术研究院,s . t . o .关于作者,出版物,引文和其他相关信息的数百万数据(Arif,2015)。SBD分析可以分为合作者搜索、研究管理、专家发现系统和推荐系统(汗等人,2016)

在这里插入图片描述

图1 学术社交网络框架

1.2. 社交网络

社会网络分析是近年来流行的一种技术,在许多领域发挥着越来越重要的作用,如社会媒体网络、交通网络(如交通控制)、流行病学网络(如流行病传播模型)和网络网络(如构建万维网结构)。它不仅用于分析Twitter和Facebook等在线社交媒体应用,而且还提供科学研究领域的综合服务。社交网络(SNs)是在协作和社会化等特定情况下相互关联的个人或组织的集合。在SNs中,节点和边分别用来表示实体及其交互,帮助我们分析和挖掘信息。对SNs的分析可以识别信息传播过程中形成的网络关系。

SNs分析方法是研究SBD的有效方法。在学术网络中,研究人员通过各种学术活动建立关系(Fu et al.,2014)。目前,关于SBD各实体之间不同的交流模式的研究引起了研究者的极大兴趣(Luo和Hsu,2009)。此外,数据分析技术的进步和SNs可视化软件的最新发展促进了这些关系以及动态显示的研究(Luo和Hsu,2009)。

1.3. 学术数据中的社交网络

科学科学(SciSci)将科学描述为一个复杂的、自组织的和不断发展的学术信息网络(Fortunato等人,2018)。在SBD中,通过学术活动和信息形成的社会网络称为学术社会网络(ASN)。这种表达方式可以从不同的地理和时间尺度来研究asn,以表征新科学领域的模式,加速科学的发展。建立ASN的方法有很多种,其中合著者是最正式的学术活动形式(Fu et al.,2014)。通过对引文网络的研究,可以揭示研究者在职业生涯中的选择与取舍,这也是SciSci的研究课题之一。此外,一些研究表明,联系良好的学术社交网络往往更为丰富(Lopes et al.,2011),因此我们必须对其进行研究。

目前,在很多领域都有很多使用SNs的调查,例如异常检测(Kaur and Singh,2016)、社交媒体中的签名网络挖掘(Tang et al.,2016)、移动社交网络(Hu et al.,2015)、车载社交网络(Rahim et al.,2017)和社交网络中的社会影响力(Peng et al.,2017)。,2018年),但没有与SBD相关的SNs概述。同时,也有一些关于SBD的调查。Khan等人(2017b)调查了当前学术数据的研究趋势,确定了学术数据平台发展面临的挑战,并将未来的研究方向映射到大数据生命周期的不同阶段。夏等(2017)从学术数据管理、学术数据分析方法和代表性研究问题几个方面对学术大数据进行了全面综述。目前,还没有研究对ASNs进行全面的综述。

在这项工作中,我们提出了一个流行的新兴ASN领域的调查。据我们所知,这篇论文是第一篇使用SNs分析对SBD进行全面综述的论文。我们从建模、分析、挖掘技术和应用四个方面系统地总结了ASNs中的主题。此外,我们还简要介绍了一些有用的ASNs工具和流行的网站。我们的目标是全面解读ASNs的研究现状,了解未来研究的机遇和挑战。

本文的框架如图1所示。第2节阐述了asn的定义和特性。第3节介绍了ASN的建模方法。第4节阐述了ASNs分析,第5节介绍了ASNs中的一些关键采矿技术。第6节描述了一些有前途的研究应用和有用的ASNs站点。最后,第7节讨论了关键的开放性问题和挑战性问题。

2学术社交网络

在本节中,我们将详细阐述学术社交网络的概念、典型实体及其关系以及可用的学术数据集。

2.1. 定义

学术社会网络(ASN)是由大量实体(出版物、学者等)及其关系(引文、合著者等)形成的复杂异质网络(Tang et al.,2008;Wu et al.,2014)。学者们开展了大量的研究课题和数据挖掘任务。以下是一些例子,作者排名(Amjad et al.,2015,2017),作者兴趣发现(Daud,2012),新星发现(Daud et al.,2013,2015),学术建议(Guns and Rousseau,2014)和社区发现(Khan et al.,2017a)。对ASNs的关注导致许多ASNs站点提供SBD收集和分析。例如,MicrosoftAcademic和GoogleScholar提供论文搜索,CiteULike专注于引文关系服务。基于各种各样的网站,我们可以很容易地在网上获得SBD信息。

2.2. 学术实体与关系

图2提供了ASN中的典型实体和关系。节点通常表示学术实体,包括作者、出版物、场所、机构和术语(从论文的内容、摘要或关键词中提取)。不同类型的实体具有不同的属性或标签,可以帮助我们更丰富地分析它们。实体之间的链接通常表示关系,包括合著者、引文、联合引文、书目耦合和联合词。每种类型的关系都可以形成不同的网络,为研究互动和学术交流带来一系列的视角。合作作者侧重于寻找交流模式、书目耦合、共引和共词关系,这些关系强调确定研究主题,而引文关系则更注重知识流的转移。

2.3. 学术语义本体论

语义出版是一种增强语义的期刊出版形式(Shotton,2009)。它通过Web和语义Web技术丰富了出版物的表达形式和知识内容。它还可以提高出版信息的可操作性、相关性和交互性,最终实现智能出版。本体是对共享概念系统的正式和详细描述(Peroni和Shotton,2012)。因此,研究者可以利用本体技术实现对文档对象及其知识内容的语义描述,进而开展丰富的研究工作。表1简要描述了一些常用的本体。

表****1 学术语义本体论的基本特征 。
在这里插入图片描述

表****2 现有学术数据集的基本特征
在这里插入图片描述

2.4. 可用学术数据集

目前,有许多搜索引擎和数字图书馆提供他们的数据集,以帮助研究人员研究asn。学术数据集是包含许多类型的一般数据的综合学术文档。其中许多是免费下载的,如AMiner,美国物理学会(APS),DBLP,微软学术图(MAG),开放学术图和开放研究语料库。我们在表2中列出了这些数据集的一些基本特征和可用URL。我们可以从书目数据库中获取这些实体,这些数据库包含有关出版物(如作者、所属单位、页数、年份)及其引用出版物(如引用的参考文献、引用次数)的元数据。图2显示了典型实体及其关系。

在这里插入图片描述

**图2。**典型实体及其关系 。

3 学术社交网络建模

学术社会网络可以以各种拓扑结构构建。学者的学术社会行为可能会随着时间的推移而改变。在静态网络中,节点从不崩溃,边缘保持工作状态。学者们发现,静态网络可以带来稳定的高水平合作(Rand等人,2014)。随着网络数据规模的不断扩大,网络结构变得越来越复杂。因此计算时间和复杂度同时增加。因此,Benson等人(2016)使用了基于子网的graphlet,并开发了高阶连通模式的通用框架。大多数情况下,现实世界的网络是动态的。在动态网络中,节点或边可能出现或消失,使得动态网络拓扑结构随时间而变化。动态网络被广泛使用,因为它们可以描述成分和相互作用(兰德等人,2011年)。另一个重要原因是ASN本身是动态的。大量的研究者通过对动态网络结构的探索,取得了重要的成果。研究发现,重复的积极互动可以促进个体之间和群体内部的合作。然而,动态asn的拓扑结构难以描述,建模困难。

不同类型的网络适合于建模不同的关系。根据网络中节点的不同,学术社交网络可分为同质学术社交网络和异质学术社交网络。

3.1. 同质学术社交网络

在这里插入图片描述

**图3。**典型的学术同质网络 。

同质asn是指那些节点代表相同实体的网络。例如,在图3中,图的中心是论文关系的toy模型的示例,其周围是从中提取的几个典型asn。图3a是合作作者网络,其中X和Y共同撰写论文A和论文E,Y和Z共同撰写论文C。图3b是引文网络,其中论文通过直接引文链接连接。先发表的论文被后发表的论文引用,即先发表的论文向后发表的论文划出箭头。图3c是toy模型的共引网络,其中A和B是C和D的共引,A和D是E的共引。图3d是书目耦合网络。我们可以看到C和D是书目耦合的,因为它们都引用了A和B。图3e是共词网络,而B、C、E都属于机器学习领域。

3.1.1合著网络

合著网络是应用最广泛的asn之一。在图3a的合著者网络中,合著者网络中的每个节点表示作者。合著网络中的边缘是指合著关系。学者们从不同的角度研究合作作者网络。事实证明,合作继续影响研究实践和知识生产,在不同学科中越来越流行(Uddin等人,2013)。协作在几乎所有学科中都变得越来越普遍。此外,随着信息技术、交通运输和通信的发展,科学家不再需要在同一地点,科学合作可能跨越大学边界(Jones et al.,2008),甚至跨越国家边界(Wilsdon et al.,2011)。学者们根据合著者网络研究合作行为。此外,合作团队已被发现是一种新的研究模式。

3.1.2联合引文网络

共引是指在一篇文章中同时

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值