知识图谱-词汇挖掘

  • 叙词表:

叙词表又被称为主题词表,是一个针对特定学科领域的词汇表,也可以是涉及多个学科领域的综合性词汇表。改词汇表又一些雨衣相关的规范化名词术语组成。通常按照主题词首字母的顺序进行组织。
词汇挖掘=短语挖掘,短语是真一个单词或者多个连续的单词组成的序列。
对于短语的质量,从以下几方面评估:
1)频率:
一般来说,一个N-Gram在给定的文档集合中要出现的足够频繁才能被视作高质量短语。
2)一致性:
是指N-Gram的搭配频率明显高于其各部分偶然组成在一起的可能性,反应了N-Gram中不同单词的搭配是否合理或者是否常见。
3)信息量:
高质量短语应该传达一定的信息,即表达一定的主题或者概念
4)完整性:
一个高质量短语必须在特定的上下文中是一个完整的语义单元

  • 领域短语挖掘雨隐含狄利克雷分部(LDA)

领域短语挖掘:
输入多个文档,将其合并为一个文档,从合并后的文档中输出该领域的高质量短语;
LDA:
输入多个文档,多每个文档输出主题分部和主题的词分部,根据这两个分部得到每个文档中不同词的分数。侧重的是主题词的分布。

  • 数据挖掘方法

无监督的短语挖掘方法:
人工智能语料库-候选短语生成-统计特征计算-质量评分-排序输出

有监督的短语挖掘方法:
人工智能语料库-候选短语生成-统计特征计算 and 样本标注-分类器学习-质量评分-排序输出

  • 统计指标特征

TF-IDF, C-value, NC-value, PMI, 左邻字熵,右邻字熵

TF-IDF评价一个短语在语料中的重要性。如果某个短语在领域语料中频繁出现单在外部文档中很少出现,则该短语很可能是该领域的高质量短语;

TF:预料中该词出现的频率 f ( u ) f(u) f(u)
t f ( u ) = f ( u ) ∑ u ′ f ( u ′ ) tf(u)=\frac{f(u)} {\sum_{u'}f(u')} tf(u)=uf(u)f(u)

IDF:外部文档综述除以包含该词汇的外部文档数的对数形式
i d f = l o g ∣ D ∣ + σ ∣ j : u ∈ d j ∣ + σ idf=log\frac{|D|+\sigma}{|{j:u \in d_j}|+\sigma} idf=logj:udj+σD+σ

C-value

在词频的基础上考虑了短语的长度,以及父子短语对于词频统计的影响

NC-value

基于考虑上下文信息可以对高质量短语进行识别,在这一基础上对C-value进行了改进,在C-value的基础上,考虑候选短语 u u u对上下文单词 b ∈ C u b \in C_u bCu的影响,其中 f u ( b ) f_u(b) fu(b)是指 b b b作为上下文出现的次数, w e i g h t ( b ) weight(b) weight(b)是衡量 b b b重要性的权重。

PMI

PMI(Pointwise Mutual Information,点互信息),刻画了短语组成部分之间的一致性(Concordance)程度。假设某个短语 u u ucombined by u t u_t ut and u r u_r ur, u t u_t ut and u r u_r ur的值越大, u u u越可能是一个有意义的组合:
P M I ( u l , u r ) = l o g p ( u ) p ( u l ) p ( u r ) PMI(u_l,u_r)=log \frac{p(u)}{p(u_l)p(u_r)} PMI(ul,ur)=logp(ul)p(ur)p(u)

左右邻字熵

挖掘左右邻丰富的短语,刻画短语自由运用的程度,用来衡量一个词的左邻字集合和右邻字集合的丰富程度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值