知识图谱-词汇挖掘

最新推荐文章于 2024-07-19 06:50:51 发布

加油上学人

最新推荐文章于 2024-07-19 06:50:51 发布

阅读量1.7k

点赞数

分类专栏：知识图谱文章标签：知识图谱词汇挖掘 LDA tf-idf

本文链接：https://blog.csdn.net/weixin_45885232/article/details/124439550

版权

知识图谱专栏收录该内容

10 篇文章 0 订阅

订阅专栏

叙词表：

叙词表又被称为主题词表，是一个针对特定学科领域的词汇表，也可以是涉及多个学科领域的综合性词汇表。改词汇表又一些雨衣相关的规范化名词术语组成。通常按照主题词首字母的顺序进行组织。
词汇挖掘=短语挖掘，短语是真一个单词或者多个连续的单词组成的序列。
对于短语的质量，从以下几方面评估：
1）频率：
一般来说，一个N-Gram在给定的文档集合中要出现的足够频繁才能被视作高质量短语。
2）一致性：
是指N-Gram的搭配频率明显高于其各部分偶然组成在一起的可能性，反应了N-Gram中不同单词的搭配是否合理或者是否常见。
3）信息量：
高质量短语应该传达一定的信息，即表达一定的主题或者概念
4）完整性：
一个高质量短语必须在特定的上下文中是一个完整的语义单元

领域短语挖掘雨隐含狄利克雷分部（LDA）

领域短语挖掘：
输入多个文档，将其合并为一个文档，从合并后的文档中输出该领域的高质量短语；
LDA：
输入多个文档，多每个文档输出主题分部和主题的词分部，根据这两个分部得到每个文档中不同词的分数。侧重的是主题词的分布。

数据挖掘方法

无监督的短语挖掘方法：
人工智能语料库-候选短语生成-统计特征计算-质量评分-排序输出

有监督的短语挖掘方法：
人工智能语料库-候选短语生成-统计特征计算 and 样本标注-分类器学习-质量评分-排序输出

统计指标特征

TF-IDF， C-value， NC-value， PMI，左邻字熵，右邻字熵

TF-IDF：评价一个短语在语料中的重要性。如果某个短语在领域语料中频繁出现单在外部文档中很少出现，则该短语很可能是该领域的高质量短语；

TF：预料中该词出现的频率 $f (u)$
$tf(u)=\frac{f(u)} {\sum_{u'}f(u')}$

IDF：外部文档综述除以包含该词汇的外部文档数的对数形式
$idf=log\frac{|D|+\sigma}{|{j:u \in d_j}|+\sigma}$

C-value

在词频的基础上考虑了短语的长度，以及父子短语对于词频统计的影响

NC-value

基于考虑上下文信息可以对高质量短语进行识别，在这一基础上对C-value进行了改进，在C-value的基础上，考虑候选短语 $u$ 对上下文单词 $\in C_u$ 的影响，其中 $f_u(b)$ 是指 $b$ 作为上下文出现的次数， $w e i g h t (b)$ 是衡量 $b$ 重要性的权重。

PMI

PMI（Pointwise Mutual Information,点互信息），刻画了短语组成部分之间的一致性（Concordance）程度。假设某个短语 $u$ combined by $u_t$ and $u_r$ , $u_t$ and $u_r$ 的值越大， $u$ 越可能是一个有意义的组合：
$PMI(u_l,u_r)=log \frac{p(u)}{p(u_l)p(u_r)}$