Understanding the Advisor-advisee Relationship via Scholarly Data Analysis
Jiaying Liu,Tao Tang
1. 贡献
Contribution:
- 学术水平高的导师所指导的学生,其学业表现优于其他导师
- 学术水平高的导师可以提高被导师的h指数排名
2. 方法
2.1Database
Database处理:
- 为所有作家构建合作网络
- 清理网络:只选择在DBLP数据集中发表过至少5篇论文,且发表生涯跨度至少10年的学者
- 提取训练所需的特征作为模型的未标记输入:计算每位学者在合作的前8年的个人属性(即学术年龄、发表论文数量)和合作属性(即合作次数、合作时间、前两位作者的次数、合作的凝聚力),然后将这些标准化特征作为模型的输入。采用BP (Back Propagation)方法对模型进行训练和优化。通过训练后的分类器得到识别advisor的结果。
- 选择识别精度超过90%的师承关系作为师承关系数据集
数据集大小:15559名学术年龄为5岁导师(23473名学生) + 20859名学术年龄为10岁(36841名) + 17028名学术年龄为15岁(33652名) + 11522名学术年龄为20岁(24883名) + 7,352名学术年龄为25岁(11,305名)
2.2 作者排名
考虑三个目标:发表数量、被引用次数和h指数
2.3 分析方法
2.3.1 学者的学术年龄
- Def 1 : AA 作者的学术年龄
A A = Y c − Y f A A=Y_{c}-Y_{f} AA=Yc−Yf
where, Y f Y_{f} Yf是学者发表第一篇文章的年份, Y c Y_{c} Yc也是调查的年份
2.3.2 h指数排在前10%的学生概率
探讨学生的水平和导师的科研能力的相关性
(1) 根据导师的不同学术年龄,将导师分为Top10%组和其他组
(2) 根据首次合作年龄得到Top10组的导师的学生
N
t
t
N_{t_{t}}
Ntt和其他组的导师的学生
N
t
r
N_{t_{r}}
Ntr
(3) 将所有学龄相同的学员按h-index对其进行排名
(4) 计算前10%学生的最低h-index
h
min
h_{\min}
hmin
(5) 计算出在h指数高于
h
min
h_{\min}
hmin的Top10组的学生数
N
h
t
N_{h_{t}}
Nht。用同样的方法,计算其他组的
N
h
r
N_{h_{r}}
Nhr
(6) Top10组导师的学生h-index
N
h
t
/
N
t
t
N h_{t} / N t_{t}
Nht/Ntt,普通组
N
h
r
/
N
t
r
N h_{r} / N t_{r}
Nhr/Ntr
3. results
3.1 Statistical analysis of the advisor-advisee relationships
分析不同AA的NP(论文数)、NC(引用数)、h-index(NH)
3.2 导师的学术特征与学生学术表现之间的相关性
3.3 有成就感的导师培养出厉害的学生
interesting finding: 随着导师学术年龄的增加,学生之间的差距缩小了
分析了不同AA的Top10组导师的学生和Res组的学生学术水平,并且分析了不同AA的Top10的学生和Top10导师与其他组导师的学术水平的关系
3.4 Publication rates analysis
根据年份和出版数量的关系,选择某些非正常年份的某一学术年龄的导师,比较他们学生的平均学术表现。学生的学术表现和老师的学术水平正相关。
4. 讨论
学术孙辈讨论,top10导师的孙辈的学术水平比普通导师孙辈学术水平高出40%
Need improve
- 数据集都是计算机专业
- 只研究了导师的水平和学生的学术水平的关系,没有考虑到其他因素,如选择性偏见、院校排名等其他影响因素
- 非正式的导师和学生关系