自然语言处理第四期

最新推荐文章于 2020-05-20 09:29:44 发布

xh999bai

最新推荐文章于 2020-05-20 09:29:44 发布

阅读量729

点赞数 1

文章标签： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xh999bai/article/details/89287016

版权

本文介绍了TF-IDF原理，包括词频和逆文档频率的解释，以及IDF的平滑处理。接着讨论了如何使用词袋模型和TF-IDF进行文本矩阵化。此外，还阐述了互信息的概念及其在特征筛选中的作用，提到了过滤法、包裹法和嵌入法等特征选择方法。

摘要由CSDN通过智能技术生成

自然语言处理第四期

TF-IDF原理。
文本矩阵化，使用词袋模型，以TF-IDF特征值为权重。（可以使用Python中TfidfTransformer库）
互信息的原理。
使用第二步生成的特征矩阵，利用互信息进行特征筛选。

一、TF-IDF原理

TF-IDF是Term Frequency - Inverse Document Frequency的缩写，即“词频-逆文本频率”。它由两部分组成，TF和IDF。

TF是词频，之前做的向量化也就是做了文本中各个词的出现频率统计，并作为文本特征。

IDF，逆文本频率，就是反应一个词的重要性，进而修正仅仅用词频表示词频的词特征性。如果一个词在很多的文本中出现，那么它的IDF值应该低。例如，几乎所有文本都会出现的"to"其词频虽然高，但是重要性却应该比词频di低的"China"和“Travel”要低。而反过来如果一个词在比较少的文本中出现，那么它的IDF值应该高。比如一些专业的名词如“Machine Learning”。这样的词IDF值应该高。一个极端的情况，如果一个词在所有的文本中都出现，那么它的IDF值应该为0。

词x的IDF的基本公式如下： IDF(x) = log(N / N(x))
其中，N代表语料库中文本的总数，而N(x)代表语料库中包含词x的文本总数。

上面的IDF公式已经可以使用了，但是在一些特殊的情况会有一些小问题，比如某一个生僻词在语料库中没有，这样我们的分母为0， IDF没有意义了。所以常用的IDF我们需要做一些平滑，使语料库中没有出现的词也可以得到一个合适的IDF值。平滑的方法有很多种，最常见的IDF平滑后的公式之一为： IDF(x)=log(N+1 / N(x)+1) + 1

有了IDF的定义，我们就可以计算某一个词的TF-IDF值了： TF−IDF(x)=TF(x)∗IDF(x)
其中TF(x)指词x在当前文本中的词频。

二、文本矩阵化，使用词袋模型，以

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理第四期

自然语言处理第四期TF-IDF原理。文本矩阵化，使用词袋模型，以TF-IDF特征值为权重。（可以使用Python中TfidfTransformer库）互信息的原理。使用第二步生成的特征矩阵，利用互信息进行特征筛选。TF-IDF原理TF-IDF是Term Frequency - Inverse Document Frequency的缩写，即“词频-逆文本频率”。它由两部分组成，T...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。