统计文本中出现最高的词频数并存储为excel

最新推荐文章于 2023-03-19 13:36:15 发布

zn505119020

最新推荐文章于 2023-03-19 13:36:15 发布

阅读量2.6k

点赞数 1

分类专栏：工作相关

本文链接：https://blog.csdn.net/zn505119020/article/details/78131494

版权

工作相关专栏收录该内容

136 篇文章 0 订阅

订阅专栏

print(d_train.head())   #d_train 为 Dataframe
document = " ".join(d_train.title).split()   #将文本连成文件再用空格分词，return list
print(document)
ss = Counter(document).most_common(100)   #return 单词出现最多的100个单词--次数
print(ss)

对分词统计后的数据存储

from collections import Counter
import pandas as pd
import numpy as np
bill_path = r'switch category.xlsx'
df = pd.DataFrame(pd.read_excel(bill_path))
df = df.dropna()
product_names = " ".join([str(i) for i in df["product_name"].values])
words = product_names.split()
fenci = Counter(words).most_common()
fenci =np.array(fenci)
df = pd.DataFrame(fenci,columns=["word","count"])
df["count"] = df["count"].astype("int")
df.to_excel("fenci_1115_3.xlsx",index = False)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zn505119020

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
统计文本中出现最高的词频数并存储为excel

print(d_train.head()) #d_train 为 Dataframedocument = " ".join(d_train.title).split() #将文本连成文件再用空格分词，return listprint(document)ss = Counter(document).most_common(100) #return 单词出现最多的100个单词--次数
复制链接

扫一扫