文本特征提取之TF-IDF算法（原理+Python代码）

最新推荐文章于 2024-04-16 10:50:22 发布

data learning

最新推荐文章于 2024-04-16 10:50:22 发布

阅读量6k

点赞数 8

文章标签： python 机器学习人工智能深度学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45481473/article/details/112989119

版权

数据来源于天池赛题：零基础入门数据分析-学术前沿趋势分析

目录

一、原理介绍

TF-IDF方法常用来评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。在一个特定文件中，当某类词语出现的频率较高，同时该类词语在整个语料库中出现频率较低时，该类词语的TF-IDF就会比较高。

TF-IDF在中文中指词频-逆向文件频率，由TF（词频）和IDF（逆向文件频率）两个部分组成。

其中，TF（词频）指的是某一个给定的词语在该文件中出现的次数，TF的计算公式为：

$TF_{w}=\frac{在某一类中词条w出现的次数}{该类中所有的词条数目}$

IDF（逆向文件频率）的主要思想是：如果包含词条t的文档越少, IDF越大，则说明词条具有很好的类别区分能力。TDF的计算公式为：

最低0.47元/天解锁文章

关注

8
点赞
踩
36

收藏

觉得还不错? 一键收藏
1
评论
文本特征提取之TF-IDF算法（原理+Python代码）

数据来源于天池赛题：零基础入门数据分析-学术前沿趋势分析地址：目录一、原理介绍二、代码实现2.1数据预处理2.2使用TF-IDF提取特征2.3建立分类模型三、结果解释一、原理介绍TF-IDF方法常用来评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。在一个特定文件中，当某类词语出现的频率较高，同时该类词语在整个语料库中出现频率较低时，该类词语的TF-IDF就会比较高。TF-IDF在中文中指词频-逆向文件频率，由TF（词频）和IDF（逆向文件频率）两个部分组成。其中，TF（词频）指的
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。