- 叙词表:
叙词表又被称为主题词表,是一个针对特定学科领域的词汇表,也可以是涉及多个学科领域的综合性词汇表。改词汇表又一些雨衣相关的规范化名词术语组成。通常按照主题词首字母的顺序进行组织。
词汇挖掘=短语挖掘,短语是真一个单词或者多个连续的单词组成的序列。
对于短语的质量,从以下几方面评估:
1)频率:
一般来说,一个N-Gram在给定的文档集合中要出现的足够频繁才能被视作高质量短语。
2)一致性:
是指N-Gram的搭配频率明显高于其各部分偶然组成在一起的可能性,反应了N-Gram中不同单词的搭配是否合理或者是否常见。
3)信息量:
高质量短语应该传达一定的信息,即表达一定的主题或者概念
4)完整性:
一个高质量短语必须在特定的上下文中是一个完整的语义单元
- 领域短语挖掘雨隐含狄利克雷分部(LDA)
领域短语挖掘:
输入多个文档,将其合并为一个文档,从合并后的文档中输出该领域的高质量短语;
LDA:
输入多个文档,多每个文档输出主题分部和主题的词分部,根据这两个分部得到每个文档中不同词的分数。侧重的是主题词的分布。
- 数据挖掘方法
无监督的短语挖掘方法:
人工智能语料库-候选短语生成-统计特征计算-质量评分-排序输出
有监督的短语挖掘方法:
人工智能语料库-候选短语生成-统计特征计算 and 样本标注-分类器学习-质量评分-排序输出
- 统计指标特征
TF-IDF, C-value, NC-value, PMI, 左邻字熵,右邻字熵
TF-IDF:评价一个短语在语料中的重要性。如果某个短语在领域语料中频繁出现单在外部文档中很少出现,则该短语很可能是该领域的高质量短语;
TF:预料中该词出现的频率
f
(
u
)
f(u)
f(u)
t
f
(
u
)
=
f
(
u
)
∑
u
′
f
(
u
′
)
tf(u)=\frac{f(u)} {\sum_{u'}f(u')}
tf(u)=∑u′f(u′)f(u)
IDF:外部文档综述除以包含该词汇的外部文档数的对数形式
i
d
f
=
l
o
g
∣
D
∣
+
σ
∣
j
:
u
∈
d
j
∣
+
σ
idf=log\frac{|D|+\sigma}{|{j:u \in d_j}|+\sigma}
idf=log∣j:u∈dj∣+σ∣D∣+σ
C-value
在词频的基础上考虑了短语的长度,以及父子短语对于词频统计的影响
NC-value
基于考虑上下文信息可以对高质量短语进行识别,在这一基础上对C-value进行了改进,在C-value的基础上,考虑候选短语 u u u对上下文单词 b ∈ C u b \in C_u b∈Cu的影响,其中 f u ( b ) f_u(b) fu(b)是指 b b b作为上下文出现的次数, w e i g h t ( b ) weight(b) weight(b)是衡量 b b b重要性的权重。
PMI
PMI(Pointwise Mutual Information,点互信息),刻画了短语组成部分之间的一致性(Concordance)程度。假设某个短语
u
u
ucombined by
u
t
u_t
ut and
u
r
u_r
ur,
u
t
u_t
ut and
u
r
u_r
ur的值越大,
u
u
u越可能是一个有意义的组合:
P
M
I
(
u
l
,
u
r
)
=
l
o
g
p
(
u
)
p
(
u
l
)
p
(
u
r
)
PMI(u_l,u_r)=log \frac{p(u)}{p(u_l)p(u_r)}
PMI(ul,ur)=logp(ul)p(ur)p(u)
左右邻字熵
挖掘左右邻丰富的短语,刻画短语自由运用的程度,用来衡量一个词的左邻字集合和右邻字集合的丰富程度。