数据特征提取——用于文本分类的关键词规则设置，用哪些关键词直接分类

最新推荐文章于 2023-03-26 16:19:17 发布

kaikai334421

最新推荐文章于 2023-03-26 16:19:17 发布

阅读量424

点赞数

本文链接：https://blog.csdn.net/xielunw/article/details/119187063

版权

该篇博客介绍了一个用于文本分类的关键词提取方法。通过读取csv数据，使用jieba进行分词，并针对预设的标签，计算每个标签对应的关键词出现频率。最终输出每个标签的关键词及其在整个数据集中的频率比，以评估其作为分类依据的适宜性。

摘要由CSDN通过智能技术生成

import pandas as pd
import csv
import jieba
from collections import Counter, OrderedDict
#数据格式要求：标签列名称为key，文本列标签为title

此处为预设好的标签，根据分类任务自己写标签名
bumen=[‘xxxx处’,‘xx灯’,‘建xx处’,‘绿xxx办’,‘燃xx’,‘城建xxx’,‘公用xxxx’,‘养xxxx’,‘城建xxxx’,‘城xxx’,‘质xxx’,‘人xxx’,‘监xxxx队’,‘村xxx’,‘招xxx’,‘xxxx办’,‘xxxxx室’]

data = pd.read_csv(‘data1.csv’)

fd=open(‘result.txt’,‘a’)
#定义标签
data_key=data[‘label’]

#定义文本内容
data_title=data[‘text’]
#定义变量
fenci=[]
zongcipin=[]
Zongcipin=[]
bumencipin=[]
Bumencipin=[]
fenci.append([‘总词汇’,])
for xx in bumen :
fenci.append([xx,])
bumencihui=[]
for i in range(len(data_key)):
seg_list = jieba.cut(data_title[i], cut_all=False)
for xx in seg_list:
fenci[0].append(xx)
for j in range (len(fenci)):
if fenci[j][0] in data_key[i]:
fenci[j].append(x

最低0.47元/天解锁文章

kaikai334421

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据特征提取——用于文本分类的关键词规则设置，用哪些关键词直接分类

import pandas as pdimport csvimport jiebafrom collections import Counter, OrderedDict#数据格式要求：标签列名称为key，文本列标签为title此处为预设好的标签，根据分类任务自己写标签名bumen=[‘xxxx处’,‘xx灯’,‘建xx处’,‘绿xxx办’,‘燃xx’,‘城建xxx’,‘公用xxxx’,‘养xxxx’,‘城建xxxx’,‘城xxx’,‘质xxx’,‘人xxx’,‘监xxxx队’,‘村xxx’,‘
复制链接

扫一扫