python_案例_文本数据分析

最新推荐文章于 2022-09-07 08:10:11 发布

Xue__Feng

最新推荐文章于 2022-09-07 08:10:11 发布

阅读量1.4k

点赞数

分类专栏： Python 文章标签： Python

本文链接：https://blog.csdn.net/zuefeng/article/details/100640297

版权

Python 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

1.储备知识
1)停用词

第一点：在文章中大量出现；
第二点：对判断没啥大用。

2)TF-IDF
TF中的分母应该为文中词语总数
在这里插入图片描述
3)相似度

第一步：进行分词；
第二步：获取词频向量；
第三步：计算向量之间的余弦相似度。<a,b>/(|a|*|b|)

2.代码实现
在这里插入图片描述

import pandas as pd
import jieba
df_news = pd.read_table("./data/val.txt",names=["category","theme","URL","content"],
encoding="utf-8")
df_news = df_news.dropna()
df_news.head()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Xue__Feng

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python_案例_文本数据分析

1.储备知识1)停用词第一点：在文章中大量出现；第二点：对判断没啥大用。2)TF-IDF3)相似度第一步：进行分词；第二步：获取词频向量；第三步：计算向量之间的余弦相似度。<a,b>/(|a|*|b|)2.代码实现import pandas as pdimport jiebadf_news = pd.read_table("./data/val.t...
复制链接

扫一扫