请列举出几种文本特征提取算法

本文介绍了文档频率、信息增益、互信息和开方检验等概念在IT技术中的应用,重点讲解了TF-IDF在文本特征提取中的重要性,以及如何使用TfidfVectorizer进行文本处理。这些技术有助于提高分类器性能和信息检索的效果。
摘要由CSDN通过智能技术生成

1、文档频率:

DF= document frequent 即文档频率 ,文本特征提取中会用到这个参量。

2、信息增益:

信息增益是一种用于衡量特征和类别之间关系的重要指标,它可以用来评估特征的有效性,从而帮助我们选择最有效的特征。信息增益计算公式是一种用于计算特征和类别之间关系的重要方法,它可以用来估计特征的有效性,从而帮助我们选择最有效的特征。

信息增益计算公式的基本原理是:在给定的特征集合中,选择一个特征,使得类别的熵减少最多,从而获得最大的信息增益。具体来说,信息增益计算公式是:信息增益=类别的熵-特征的熵。

类别的熵是指类别的不确定性,它可以用来衡量类别的多样性,即类别的熵越大,类别的多样性越大。

信息增益计算公式用来评估特征的有效性,从而帮助我们选择最有效的特征。他可以帮助我们减少特征空间,提高分类器的准确性,从而提高分类器的性能。

3、互信息:

互信息是衡量两个随机变量的相关性,也就是一个随机变量中包含的关于另一个随机变量的信息量,所谓的随机变量,即随机试验结果的量的表示,可以简单理解为按照一个概率分布进行取值的变量,比如随机抽查的一个人的身高就是一个随机变量。 可以看出,互信息其实就是对X和Y的所有可能的取值情况的点互信息PMI的加权和。

4、开方检验(X^2)统计:

开方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。具体做的时候常常先假设两个变量确实是独立的(行话就叫做“原假设”),然后观察实际值(也可以叫做观察值)与理论值(这个理论值是指“如果两者确实独立”的情况下应该有的值)的偏差程度,如果偏差足够小,我们就认为误差是很自然的样本误差,是测量手段不够精确导致或者偶然发生的,两者确确实实是独立的,此时就接受原假设;如果偏差大到一定程度,使得这样的误差不太可能是偶然产生或者测量不精确所致,我们就认为两者实际上是相关的,即否定原假设,而接受备择假设。

5、TF-IDF:

TF(全称TermFrequency),中文含义词频,简单理解就是关键词出现在网页当中的频次。

IDF(全称InverseDocumentFrequency),中文含义逆文档频率,简单来说就是该关键词出现在所有文档里面的一种数据集合。

TF-IDF用来评估字词对于文档集合中某一篇文档的重要程度。TF-IDF的计算公式为:
TF-IDF = 某文档中某词或字出现的次数/该文档的总字数或总词数 * log(全部文档的个数/(包含该词或字的文档的篇数)+1)
TF-IDF的思想比较简单,但是却非常实用。然而这种方法还是存在着数据稀疏的问题,也没有考虑字的前后信息。

在信息检索中,tf-idf或TFIDF(术语频率 – 逆文档频率的缩写)是一种数字统计,旨在反映单词对集合或语料库中的文档的重要程度。

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vec = TfidfVectorizer()
# stop words自定义停用词表,为列表List类型
# token_pattern过滤规则,正则表达式,如r"(?u)bw+b
# max_df=0.5,代表一个单词在 50% 的文档中都出现过了,那么它只携带了非常少的信息,因此就不作为分词统计
documents = [
    'this is the bayes document',
    'this is the second second document',
    'and the third one',
    'is this the document'
]
tfidf_matrix = tfidf_vec.fit_transform(documents)
# 拟合模型,并返回文本矩阵  表示了每个单词在每个文档中的 TF-IDF 值
print('输出每个单词在每个文档中的 TF-IDF 值,向量里的顺序是按照词语的 id 顺序来的:', '\n', tfidf_matrix.toarray())
print('不重复的词:', tfidf_vec.get_feature_names())
print('输出每个单词对应的 id 值:', tfidf_vec.vocabulary_)
print('返回idf值:', tfidf_vec.idf_)
print('返回停用词表:', tfidf_vec.stop_words_)

  • 6
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

茉莉清茶LG

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值