共词分析

 一、共现分析概念及主要类型

“共现”指文献的特征项描述的信息共同出现的现象,这里的特征项包括文献的外部和内部特征,如题名、作者、关键词、机构等。而“共现分析”是对共现现象的定量研究,以揭示信息的内容关联和特征项所隐含的知识。常见的共现类型包括:

类型

含义

首次提出者

对应论文

文献耦合

两篇或多篇文献同时引证一篇论

M.M.Kessler(1963)

Kessler M M. Bibliographic coupling between scientific papers[J]. Journal of the Association for Information Science & Technology, 1963, 14(1):10-25.

文献同被引

两篇或多篇文献被同一篇文献引用

Henry Small(1973)

Smal lH.Co-citation in the scientific literature : A

new measure of the relationship between two documents [J]. Journal of the American Society for Information Science ,

1973,24(4):265-269.

共词

词汇对同时出现在同一文献中

M.Callon、J.Law、A.Rip(1986)

Callon M, Law J, Rip A. Mapping the Dynamics of Science and Technology[M]// Mapping the dynamics of science and technology :. The Macmillan Press, 1986:815.

作者同被引

两篇或多篇文献同时引证某一作者

White、Griffith(1981)

White H D, Griffith B C. Author cocitation: A literature measure of intellectual structure[J]. Journal of the Association for Information Science & Technology, 1981, 32(3):163-171.

共链

两个网页同时被第3个网页链接或两个网页同时拥有指向第3个网页的链接

Ray Larson(1996)

Larson R R. Bibliometrics of the World Wide Web: An Exploratory Analysis of the Intellectual Structure of Cyberspace.[C]// Asis Meeting. 1996:71-78.

网络共词

 

Kipp(2006)

Kipp M E I, Campbell D G. Patterns and Inconsistencies in Collaborative Tagging Systems: An Examination of Tagging Practices[J]. Proceedings of the American Society for Information Science & Technology, 2006, 43(1):1–18.

作者同被引

 

Leydestorff(2006)

Leydesdorff L, Vaughan L. Co-occurrence matrices and their applications in information science: Extending ACA to the Web environment[M]. John Wiley & Sons, Inc. 2006.


Frombibliographic coupling to co-citation analysis: a citationist's tribute toBelver C. Griffith(Garfield,2001)

 

二、常见共现分析:共词分析

1、概念

基本原理是通过统计文献集中词汇对或名词短语的共现情况,来反映关键词之间的关联强度,进而确定这些词所代表的学科或领域的研究热点、组成与范式,横向和纵向分析学科领域的发展过程和结构演化。该方法前提假设是:词汇对在同一篇文献中出现的次数越多,则代表这两个主题的关系越紧密。由此,统计一组文献的主题词两两之间在同一篇文献出现的频率,便可形成一个由这些词对关联所组成的共词网络,网络内节点之间的远近便可反映主题内容的亲疏关系。

2、共词分析过程


(1)确定分析的问题:热点问题、领域结构、发展过程及特点、领域之间的关系

(2)词源选择与概念术语提取(确定分析单元的来源并进行术语提取):共词分析的分析单元(对象)是从分析数据集中选取表征能力较强的词。早期分析单元通常从数据库(如WOS、CNKI等)中提取已有的结构化词汇(如关键词、主题词),随着自然语言处理(NLP)技术的兴起,开始从结构化数据的标题、摘要、全文及非结构化文本数据中提取有意义的词。在不同类型文献单元的选择和术语规范化处理过程中,主要问题是如何借助自然语言处理实现关键词的自动抽取和规范标引,而在术语表征差异性问题上更多的还是需要考虑如何对术语的差异性进行度量。

不同类型的文献单元的选取

从关键词、主题词提取:易出现标引者效应,关键词(作者自由标引)、主题词(来源受控词表,但也存在标引用词的选择问题)

从标题、摘要提取:一是作者为引起读者的兴趣会故意选取具有时代感、学术感的标题词,存在一定的“观众效应”[①],同时,对标题和摘要内容进行细粒度分词时,很可能会破坏词汇原本的含义;二是汉语词汇中普遍存在的同、近义词现象,同一概念在不同的标题、摘要中可能使用不同的词语进行表示。

从全文中提取:需要借助于机器学习算法融合语言学信息抽取关键词,研究难度和代价较大,抽取高质量的关键词更是一个挑战,因此在实际研究中较少采用。

术语的规范化

泛用(含义相同,但表述相异):同义词、近义词、缩写词及中英混用

单义性:术语只依附于某一特定专业或学科范围,脱离其专业学科来笼统地使用术语,必然会造成对术语的曲解,如“文件” 在档案学中和信息技术学科中是两个不同的概念

术语表达的粒度:外延过宽,语义表达的过于空泛,无法解释文献具体的研究内容,甚至还会增加共词分析中共词矩阵的维数,给后续数据处理带来干扰,需要对术语进行细化

术语历时变化:术语概念内涵与外延会随着时间的推移发生动态性变迁,名称也随之发生变化,出现一个术语有多种含义或存在多种理解与解释的情况。对术语的使用,也要从历时性角度考证术语的词源,追溯术语的历史演变与动态性变迁,在不同的时期把握术语的不同概念。

新术语构造的理据和规范问题:社会与科学的不断发展,与

之同步会产生大量对新事物、新事件以及新现象定义的新术语。新术语的构建不能随意标引,必须规范化,依据一定的构造理据,尽可能选自其他受控词表或比较权威的参考书目,使之词性规范、概念明确,并符合科学性、通用性的需求。

术语表征差异化

传统共现分析假设术语的独立性,不考虑术语之间表达的差异性,而忽略关键词之间的权重差异必然导致最终的共词分析效果存在一定程度的失真。考虑文献的篇章语义结构以及术语“同量不同质”的现象,在一定程度上能够很好地改善共词分析的结果。从标引源差异、文献属性差异以及词重要性差异等不同角度进行加权共词分析方法是必要的、合理的。通过构建不同的映射模型,可以对概念之间的不同关系进行强化或衰减,从而展现出不同的研究目的。

 其中,术语规范化方法主要有两种:

A. 基于受控词典或分类词表进行术语规范:可借助于词表对收集到的术语进行规范,或直接借助已规范的术语如主题词、叙词表进行共现分析。

B. 基于人工干预方式的规范处理:借助自我的经验制定相应的规则、方法来实现人工干预处理

(4)核心关键词选定

受工具、人力的限制以及结果分析和呈现的需要,研究者通常只选取部分关键词作为共词分析的对象。主要有两种方式选取:

一是指标筛选:例如根据词频高低、节点中心性[②]、h指数[③]、词共现强度[④]来遴选;

二是模型筛选:如词汇链[⑤]、核心-边缘结构模型[⑥]、K-core分解[⑦]等,将术语集合转化成网络模型实现术语的抽取。但由于在术语构建的网络中,上述指标与词频仍然线性相关,因而抽取的术语与高频词并无太大差异。

(5)词汇共现关系度量(术语之间的相似性计算并构建相关矩阵)

传统共现分析通常基于文献中关键词对的共现性来构建共词矩阵(一般不直接选用词对频率的绝对值作为量度指标,通常将共现频率其进行包容化处理,如包容指数法、临近指数法、相互包容系数法等)。基于词频共现频率的方法缺乏对词汇间语义关系和关系强度的解释,为此,学者借助RDF三元组对关联数据进行细粒度和语义关联化等方法来改善。

(6)共词分析中的统计方法

共现矩阵的计算是共词分析的重要一步,在此基础上采用不同的统计学方法,揭示共词中的信息,常用的统计分析方法有:聚类、关联规则、词频、突发伺监测、因子分析、贝叶斯分类等。

(7)对共词结果的可视化展示

类团关系图:将类团间关系的强弱以连接线的粗细表示,关系越强,连线越粗,通常只显示类团间的关系,不显示类团内成员之间的关系,相对比较简单。

战略坐标图[⑧]:以向心度(横坐标)和密度(纵坐标)为参数绘制成的二维坐标,用来表示某一研究领域内部联系情况和领域间相互影响的情况。其中,向心度表示领域间互相影响的强度,密度表示某一领域内部联系强度。

聚类谱系图[⑨],也称聚类树图,其用逐级连接的方式把距离相近的主题词或主题连接起来,直至并为一个大主题。

多维尺度图谱[⑩]:利用平面距离展示出词间亲疏关系,能够判断出某主题在学科领域中的位置。

社会网络分析图谱[11]:通过节点-链接图直观、形象地反映词间联系的强弱,快速定位核心词和边缘词。

3、共词分析的主要类型

(1)共词聚类分析法

词对在同一篇文献出现的频率,反映词对间关系紧密的程度。对共词关系网络中的词与词之间的距离进行数学运算,将距离较近的主题词聚集起来,形成一个个概念相对独立的类团,使得类团内属性相似性最大,类团间属性相似性最小。

(2)共词关联分析法

关联规则是描述一个事物中物品同时出现的规律的知识模式,即通过量化的数据描述物品A的出现对物品B的出现有多大影响。例如在一篇有关某病的药物治疗文献中,对该文的标引时,除了有“病A/药物治疗”的主题词外,“药B/治疗应用”的主题词也很有可能同时存在,以表达药B有治疗某病A的功效。共词关联分析以此为原理,通过关联统计方法,揭示主题词间的依存关系。

(3)共词词频分析法

一种揭示或表达文献核心内容的关键主题词在某一研究领域文献中出现的频次高低来确定该领域研究热点和发展动向的文献计量法,通常将共现聚类和共词词频分析相互结合。

(5)突发词监测法

关注焦点词相对增长率突然增长的词,基于单个词的词频增长率变化更有可能涉及到领域局部热点的变化。

4、共词分析法的应用


(1)基于词的应用研究:解释某一领域的研究主题,确定研究领域的知识结构、探索研究领域内的热点问题:方法主要是多元统计分析(因子分析、聚类分析、多维尺度分析)和社会网络分析等。

(2)基于主题的应用研究:揭示某一研究领域内研究主题之间的关系,进一步揭示研究主题所处的发展阶段,方法主要是战略坐标

(3)时间维度上的应用研究,即在第二层应用研究的基础上加上时间标签,考察某一研究领域内研究主题发展的历史脉络及其子领域的演进态势等;

(4)拓展应用研究:通过词间关系的数据挖掘来进行知识发现[12][13]、利用共词分析结果拓展检索领域[14]、进行系统开发[15]等。

 

 

[1] 傅柱, 王曰芬. 共词分析中术语收集阶段的若干问题研究[J]. 情报学报, 2016, 35(7):704-713.

[②] Choi J, Yi S, Lee K C. Analysis of keyword networks in MIS researchand implications for predicting knowledge evolution[J]. Information &Management, 2011, 48(8):371-381.

[③] 杨爱青, 马秀峰, 张风燕,等. g指数在共词分析主题词选取中的应用研究[J]. 情报杂志, 2012, 31(2):52-55.

[④] 李树青, 孙颖. 基于加权关键词共现时间元的个性化学术研究时序路径发现及其可视化呈现方法[J]. 情报学报, 2014, 33(1):55-67.

[⑤] 叶春蕾, 冷伏海. 基于词汇链的路线图关键词抽取方法研究[J]. 现代图书情报技术, 2013, 29(1):50-56.

[⑥] 叶鹰, 张力, 赵星,等. 用共关键词网络揭示领域知识结构的实验研究[J]. 情报学报, 2012, 31(12):1245-1251.

[⑦] Zhu W, Guan J. A bibliometric study of service innovation research:based on complex network analysis[M]. Springer-Verlag New York, Inc. 2013.

[⑧] Law J, Bauin S, Courtial J P, et al. Policy and the mapping ofscientific change: A co-word analysis of research into environmentalacidification[J]. Scientometrics, 1988, 14(3-4):251-264.

[⑨] 马费成, 望俊成, 陈金霞,等. 我国数字信息资源研究的热点领域:共词分析透视[J]. 情报理论与实践, 2007, 30(4):438-443.

[⑩] Tijssen R J W, Raan A F J V. Mapping co-word structures: Acomparison of multidimensional scaling and leximappe[J]. Scientometrics, 1989,15(3-4):283-295.

[11] 魏瑞斌. 国内知识图谱研究的可视化分析[J]. 图书情报工作, 2011, 55(8):126-130.

[12] Bhattacharya S, Kretschmer H, Meyer M. Characterizing intellectualspaces between science and technology[J]. Scientometrics, 2003, 58(2):369-390.

[13]刘志辉, 赵筱媛, 杨阳. 基于网络关系整合的竞争态势分析方法[J]. 图书情报工作, 2011, 55(20):64-67.

[14] Hui S C, Fong A C M. Document retrieval from a citation databaseusing conceptual clustering and co‐word analysis[J].Online Information Review, 2004, 28(1):22-32.

[15]肖伟, 魏庆琦. 学术论文共词分析系统的设计与实现[J]. 情报理论与实践, 2009, 32(3):102-105.


  • 31
    点赞
  • 157
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值