【sklearn第六讲】特征提取(下)

TF-IDF是一种常用的文本特征权重计算方法,它能够降低高频词汇的影响,突出重要词汇。本文深入讲解TF-IDF的计算原理,包括其在`sklearn`中的实现,并通过实例展示了如何进行归一化处理,以提升模型的性能。
摘要由CSDN通过智能技术生成

机器学习训练营——机器学习爱好者的自由交流空间(入群联系qq:2279055353)

TF-idf 权

在大的文本合集里,一些词出现的频率很高(例如英文里的the, a, is)但包含的实际文本内容的有价值的信息却很少。如果我们把计数的数据直接提供给一个分类器,那些高频词条会影响罕见但更有意义的词条。为了重新加权计数特征为适合分类器使用的浮点值,现在普遍采用tf-idf变换。

tf的意思是term-frequency, 而tf-idf的意思是term-frequency times inverse document-frequency, 公式为:
t f tf tf- i d f ( t , d ) = t f ( t , d ) × i d f ( t ) idf(t, d)=tf(t, d)\times idf(t) idf(t,d)=tf(t,d)×idf(t)

这里,使用TfidfTransformer的默认设置,TfidfTransformer(norm='l2', use_idf=True, smooth_idf=True, sublinear_tf=False)

t f ( t , d ) tf(t, d) tf(t,d)表示词条频数,即,一个词条在一个给定文档里出现的次数。

i d f ( t ) = log ⁡ 1 + n d 1 + d f ( d , t ) + 1 idf(t)=\log\dfrac{1+n_d}{1+df(d, t)}+1 idf(t)=log1+df(d,t)1+nd+1

n d n_d nd表示文档总数, d f ( d , t ) df(d, t) df(d,t)表示包含词条 t t t的文档数,结果tf-idf向量经欧拉范数归一化

v n o r m = v ∣ ∣ v ∣ ∣ 2 = v v 1 2 + v 2 2 + ⋯ + v n 2 v_{norm}=\dfrac{v}{||v||_2}=\dfrac{v}{\sqrt{v_1^2+v_2^2+\dots+v_n^2}} vnorm=v2<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值