图灵指数——学术大数据下的跨领域跨年代学者影响力评估

图灵指数——学术大数据下的跨领域跨年代学者影响力评估

姚宇航, 欧俊杰, 李洋, 傅洛伊, 王新兵, 陈贵海

上海交通大学电子信息与电气工程学院,上海 200240

摘要随着学术界规模的扩大,面对领域和年代的巨大差异,现有的衡量学者影响力的量化指标很难消除偏差,从而进行准确衡量。通过观察1865—2016年、310个领域、14 223 183位学者、126 438 664篇论文和533 556 856次引用的数据集,得出不同领域、不同年代的新增引用量分布均遵循幂律分布,因此提出图灵指数,通过归一化消除指数膨胀的影响,衡量学者的绝对影响力。通过对诺贝尔奖、菲尔兹奖、图灵奖等获得者的图灵指数的比较发现,尽管他们在领域和年代上存在很大差异,但是在各自领域却有着相似的影响力。图灵指数为跨领域、跨年代学者影响力评估提供了全新的思路,也为国内外学者影响力评估和基金审理提供了参考。

关键词  影响力评估 ; 图灵指数 ; 大数据挖掘 ; 学术网络

论文引用格式:

姚宇航, 欧俊杰, 李洋, 傅洛伊, 王新兵, 陈贵海. 图灵指数——学术大数据下的跨领域跨年代学者影响力评估. 大数据[J], 2019, 5(5):25-37

YAO Y H, OU J J, LI Y, FU L Y, WANG X B, CHEN G H.Turing index:cross-domain and cross-generation metric of unraveling scholars’impact in academic big data. Big Data Research[J], 2019, 5(5):25-37


1 引言

目前,越来越多的人投身于学术界,并在众多研究领域取得成就。如何量化众多学者的影响力已引起了全世界的关注,对学者影响力进行评估,对基金项目进行评审和学术奖项评选等都有很重要的意义,可以推动学术界进一步的发展。目前,最广泛使用的评价指标是引用量,即学者发表论文的总被引用次数。另一个广泛使用的指标是H指数,它根据研究者被引用最多的论文数目和被引用次数来衡量学者的产出和影响力。上述两种方法均未考虑领域和年代的影响,研究人员基于引用量和H指数提出了一些变体,用于衡量学者的个人水平。

随着时间的推移,出现了很多解决学术影响力量化问题的方法。由于领域本身的迅速发展和不同领域的不平衡发展,一些工作分别考虑了不同年代、不同领域对影响力量化的影响,并且基于引用量和H指数的归一化来平衡不同年代、不同领域学者的相对位置。在消除年代和领域的影响时,这些指标都没有合理考虑学术界规模迅速扩大造成的影响,导致评估结果并不理想。

 2 学术界的指数膨胀

为了对不同领域、不同年代的学者进行影响力评估,笔者对学者和论文数据进行了统计和收集,数据来源于Acemap和微软学术。微软学术利用论文发表期刊、标题和正文等信息对论文所在领域进行层次划分,划分结果得到了学术界和工业界的广泛认可。本文利用Acemap整合微软学术从1865年到2016年的310个领域、14 223 183位学者、126 438 664篇论文和533 556 856次引用的数据集,进行学者影响力评估的探索。主要领域的学者、论文和引用量等统计结果见表1

图1所示,历年新增论文、引用量和学者数目均呈指数级增长,可以看出学术界在飞速发展。从图1可以看到两个明显的凹陷,分别在1917年和1941年左右。笔者认为这是由两次世界大战造成的,可见军事对科学研究 也会产生很大影响。

图1   历年新增论文、引用量和学者数目统计

本文对各个主要领域内部的发展情况进行了统计,如图2所示,不同领域由于发展情况不同,线条的斜率和截距不同,但均呈指数增长。其中c为引用量。图3显示了指数膨胀的学术网络,图3中红线表示每年活跃学者的数量,网络中的彩色节点表示不同领域的活跃学者,每个簇代表一个领域,可见领域的膨胀是非常迅速的。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值