Day 41: tf-idf 分析问题

最新推荐文章于 2022-02-20 10:13:53 发布

Garciaxx

最新推荐文章于 2022-02-20 10:13:53 发布

阅读量158

点赞数

分类专栏：学习记录学习成长学习笔记文章标签： python 自然语言处理机器学习数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_50192514/article/details/113051322

版权

Python 回忆录

2020/1/23
- 介绍TF，IDF
- - TF-IDF 类的使用

2020/1/23

介绍TF，IDF

上一篇文章介绍了可以利用sklearn工具把文章特征值化。文章特征值化最常见的应用就是文章分类。比如说一篇文章经常提到一个词，那么这个文章的主题大概率就是和这个词相关。
在这里插入图片描述
像第一饼图大概率讲的是和共享车相关，第二个饼图大概率讲的是和银行经济相关。像“我，明天，做”这些都是其他词语，其他词语的比例占的是最多的，所以这时候就要用到TF（term frequency），IDF （inverse document frequency）来确认词语的重要性。
TF：词语在文章中出现的频率
IDF： log（总文章数/该词出现的文档数）
词语的重要性： TF * IDF 所以说如果词语在很多文章中出现那么这个词的重要性就很低，方便我们进行分类判断。

TF-IDF 类的使用

sklearn.feature_extraction.text.TfidfVectorizer

TfidfVectorizer(stop_words=None):返回词的权重矩阵

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Day 41: tf-idf 分析问题

Python 回忆录2020/1/23介绍TF，IDFTF-IDF 类的使用2020/1/23介绍TF，IDF上一篇文章介绍了可以利用sklearn工具把文章特征值化。文章特征值化最常见的应用就是文章分类。比如说一篇文章经常提到一个词，那么这个文章的主题大概率就是和这个词相关。像第一饼图大概率讲的是和共享车相关，第二个饼图大概率讲的是和银行经济相关。像“我，明天，做”这些都是其他词语，其他词语的比例占的是最多的，所以这时候就要用到TF（term frequency），IDF （inverse
复制链接

扫一扫

专栏目录

Garciaxx CSDN认证博客专家 CSDN认证企业博客

码龄4年

59: 原创

43万+: 周排名

105万+: 总排名

1万+: 访问

: 等级

620: 积分

6: 粉丝

8: 获赞

31: 评论

19: 收藏

私信

关注

热门文章

分类专栏

学习记录 58篇
学习成长 38篇
学习笔记 56篇
面经 1篇
面试 1篇

最新评论

Day 34 ：数据合并Join，Merge
weixin_51528442: 我虽然不敢说很懂, 但是我认为能把join和merge总结成相同行和相同列的人应该还没太懂我姑且提出一个假设, 会不会join和merge有一些参数可以设置?有没有可能join和merge都可以做到指定索引列, 进行索引相同行的拼接?
2021顺丰科技实习面经
m0_72457667: 朋友了解下丰图科技实习体验如何
Day 54:过拟合和欠拟合
大家一起学编程（python）: 别问，问就是好文
Day 54:过拟合和欠拟合
Garciaxx: 谢谢你的博客也很棒！
Day 54:过拟合和欠拟合
Garciaxx: 谢谢~

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。