论文浅尝|《Entitymetrics: Measuring the Impact of Entities》

导读

这是一篇发表于2013年的论文,《Entitymetrics: Measuring the Impact of Entities》,作者提出了“实体计量学”(entitymetrics)这一概念来衡量知识单元的影响。

选题背景

知识快速积累的情况下,从非结构化科技文献中挖掘知识给科研人员带来巨大负担。这些知识是由许多被封装为科技论文的实体的相互关联的单个知识单元组成的。

概念提出:实体计量学

使用实体(评估实体&知识实体)来衡量影响、知识使用、知识转移等,通过强调实体的重要性扩展了文献计量学。
分为宏观实体(作者、期刊、引文)、中观实体(关键词)和微观实体(数据集、方法、领域实体)。
在这里插入图片描述

数据集

以一种治疗糖尿病的药物 Metformin为例,从PubMed Central收集了3068个期刊的35,3592篇文章,从PubMed收集了1966年至2011年间发表的2049,4848篇论文。
此数据集用于抽取论文间的引用关系,遵循的原则是论文和被引的论文都有PubMed ID,以便于生物实体可以通过引用关系相互连接。

方法

1. 实体识别的方法
基于词典进行匹配基因、疾病、药物三种实体。使用到的词典有DrugBank (http://www.drugbank.ca/), HUGO (http://www.genenames.org/), 和MESH disease from CTD(Comparative Toxicogenomics Database) (http://ctdbase.org/)
2. 实体引文网络
如果论文A引用了论文B,那么论文A中的实体引用了B论文中的实体。论文A中的实体和论文B中的所有实体配对,使用哈希表存储实体的引用关系和出现频率。下图是实体引用网络示意图:
在这里插入图片描述
3. 实体引用网络生成器
包括三个组件:ArticleFilter、EntityFetcher和GraphCreator。ArticleFilter组件从与目标对象(例如,疾病、概念和方法)相关的纸张参考文献部分提取一组文献,这些论文显示在方括号中。随后,EntityFetcher组件检索这组文献的实体。最后,GraphCreator组件生成实体引用关系的哈希表,并统计每个关系发生的次数。在最后一个图中,顶点表示实体,边表示引用关系,引用数作为权重。
在本文中,ArticleFilter用于从与二甲双胍(Metformin)相关的PubMed论文中获取参考文献列表,然后EntityFetcher从该参考文献列表中收集提取的实体,最后,GraphCreator根据从EntityFetcher检索到的实体和ArticleFilter捕获的引用关系生成实体引用图。
在这里插入图片描述
4. 网络分析方法

(1)宏观:

  • 成分分析:在网络分析中,连通图称为成分,可以分析最大连通图的最短距离等。

  • 双成分分析:在双成分图中,没有节点可以完全控制其他两个节点之间的信息流,节点共享相似的信息,并且彼此相同。

  • K核分析:网络的K核是一个子结构,其中每个节点至少与K个其他节点有联系。

  • 距离分析:两个节点之间的最短路径。
    在这里插入图片描述

  • 度分布:度指一个节点与之相连的节点个数,包括入度和出度。

(2)中观:

  • 聚类系数
    在这里插入图片描述
    (3)微观:

  • 中心度:
    在这里插入图片描述

  • 贴近度中心度
    在这里插入图片描述

  • 介中心度
    在这里插入图片描述

5. 评估
CTD(比较毒理基因组学数据库)包含384141个化学同义词、679701个基因同义词和68211个疾病同义词,提供了一组336693种疾病和药物之间的相互作用。为了衡量二甲双胍在疾病中的重要性,本文利用CTD中提供的引用评分来衡量疾病与二甲双胍或其后代之间的关联强度。

结果

1. 宏观层面特征

  • 二甲双胍网络的密度为0.005311,这意味着当前网络中存在0.5311%的所有可能连接。
  • 根据K-core分析,该子网络中的每个实体至少与188个其他实体有联系。平均最短距离为2.10,即约为两个节点长(不包括两个给定节点)。因此,通过这个网络可以有效地传递信息。
  • 直径(网络中节点对之间的最大距离)为4,存在于基因otc和基因ube2v1之间。这表明所有实体之间都有着密切的关系,因为每一对实体都可以在三个步骤内彼此到达。
    在这里插入图片描述
  • 节点的入度和出度符合幂律分布
    在这里插入图片描述

2. 微观层面特征

  • 该网络的聚类系数为0.684687,表明二甲双胍网络中的实体具有高度的聚集倾向。

3. 微观层面特征

  • 通过计算网络的中心度、贴近度中心度和介乎度中心度梳理了具有高中心度的实体,其中包含了三种不同实体(如疾病、药物和基因)中每种实体以及所有合并实体的前20个。【详见原文表4-7,此处不一一列举】

贡献

  1. 提出了实体计量法来衡量不同层次知识单元的影响。它强调了嵌入科学文献中的实体对于进一步发现知识的重要性。
  2. 以知识实体为研究单元,将文献计量学向发现知识的方向发展,提升了文献计量学的发展水平。
  3. 以二甲双胍为例,在查阅相关文献的基础上,构建了一个实体-实体的引用网络,计算了该网络的网络特征,并将网络的中心等级与CTD的结果进行比较,其结果(确定二甲双胍与疾病、药物和基因的相互作用)与CTD一致,从而证明了实体级文献计量方法在检测CTD中的实用性。
  4. 结果还表明此方法是对CTD的补充,即此网络能够发现CTD(Comparative Toxicogenomics Database)未涉及的更多相互作用的实体。
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值