文本挖掘词频统计保存频数

最新推荐文章于 2024-09-26 16:30:55 发布

云在青山月在天Lv

最新推荐文章于 2024-09-26 16:30:55 发布

阅读量238

点赞数

分类专栏：文本挖掘文章标签：数据挖掘

本文链接：https://blog.csdn.net/weixin_46088104/article/details/117128216

版权

文本挖掘专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文本挖掘词频统计

在进行词频统计时，遇到了想要将频数建成新的一列数据（命名为freq），从而将词以及它的频数的结果保存在excel文件里。解决办法如下：

df_new = pd.DataFrame(word_list_new1, columns = ['评论热词'])
result = df_new.groupby(['评论热词']).size().reset_index(name = '热度')
freqlist = result.sort_values('热度',ascending = False)

其中，word_list_new1是我的分词结果的列表，第一行代码将列表转换为pandas数据框，列名为‘评论热词’。
接着通过加入reset_index(name = '热度')，可以重新进行index的编号，并将频数作为新的一列‘热度’加到结果中。此时结果应该是一个pandas的series。之后可以将其转化为数据框进行分析。
最后一句，是对热度进行降序排序，这样可以获取热度前几的词。

由于搜索了很多，所以在此mark一下，也希望遇到相同问题的小伙伴可以找到解决办法。