一、共现分析概念
“共现”指文献的特征项描述的信息共同出现的现象,这里的特征项包括文献的外部和内部特征,如题名、作者、关键词、机构等。 而“共现分析”是对共现现象的定量研究, 以揭示信息的内容关联和特征项所隐含的知识。
二、共现类型
(一)传统环境下的共现分析类型
(二)网络环境下的共现分析类型
三、共词分析概念
共词分析法利用文献集中词汇对名词短语共同出现的情况,来确定该文献集所代表学科中个主题之间的关系。一般认为词汇对在同一篇文献中出现的次数越多,则代表这两个主题的关系越紧密。由此,统计一组文献的主题词两两之间在同一篇文献出现的频率,便可形成一个由这些词对关联所组成的共词网络,网络内节点之间的远近便可反映主题内容的亲疏关系。
四、共词分析的过程
1、确定分析的问题
2、确定分析单元:如何进行词源选择?关键词?主题词?从全文抽取?
在共词分析方法中分析单元的选择通常是从关键词、同一标引的主题词、标题及摘要提取词等途径获取。另外,大量学者开始意识到传统词汇选择的弊端,通过不同方法来改进,如同义词合并、正文关键词抽取、LDA建模等。
3、词汇差异化处理
传统共词分析假定关键词的独立性,忽略了词汇的差异,因此需要有效区分词汇间的差异,考虑关键词“同量不同质”的现象,改善共词分析的效果。
4、核心关键词选定
受工具、人力的限制以及结果分析和呈现的需要,研究者通常只选取小部分关键词作为共词分析的对象。其中,词频筛选是最为直接的方式,但会忽略关键词的语义关联,为此,学者从多个角度进行改进,一类是基于传统词频优化,如最大频繁项集,三元共现高频词;另一类是提出新的指标或方法提取核心词,如基于网络节点中心性、词汇链、核心/边缘结构模型及词语贡献度等。
4、关键词共现关系度量
传统共现分析通常基于文献中关键词对的共现性来构建共词矩阵,但缺乏对关键词对间语义关系和关系强度的解释,为此,学者提出了借助RDF三元组对关联数据进行细粒度和语义关联化等方法来改善。
5、共词分析中的统计方法
共现矩阵的计算是共词分析的重要一步,在此基础上采用不同的统计学方法,揭示共词中的信息,常用的统计分析方法有:聚类、关联规则、词频、突发伺监测、因子分析、贝叶斯分类等。
6、对共词结果的分析
五、共词分析的主要类型
1、共词聚类分析法
词对在同一篇文献出现的频率,反映词对间关系紧密的程度。对共词关系网络中的词与词之间的距离进行数学运算,将距离较近的主题词聚集起来,形成一个个概念相对独立的类团,使得类团内属性相似性最大,类团间属性相似性最小。
2、共词关联分析法
关联规则是描述一个事物中物品同时出现的规律的知识模式,即通过量化的数据描述物品A的出现对物品B的出现有多大影响。例如在一篇有关某病的药物治疗文献中,对该文的标引时,除了有“病A/药物治疗”的主题词外,“药B/治疗应用”的主题词也很有可能同时存在,以表达药B有治疗某病A的功效。共词关联分析以此为原理,通过关联统计方法,揭示主题词间的依存关系。
3、共词词频分析法
一种揭示或表达文献核心内容的关键主题词在某一研究领域文献中出现的频次高低来确定该领域研究热点和发展动向的文献计量法,通常将共现聚类和共词词频分析相互结合。
4、突发词监测法
关注焦点词相对增长率突然增长的词,基于单个词的词频增长率变化更有可能涉及到领域局部热点的变化。