数据特征提取——用于文本分类的关键词规则设置,用哪些关键词直接分类

该篇博客介绍了一个用于文本分类的关键词提取方法。通过读取csv数据,使用jieba进行分词,并针对预设的标签,计算每个标签对应的关键词出现频率。最终输出每个标签的关键词及其在整个数据集中的频率比,以评估其作为分类依据的适宜性。
摘要由CSDN通过智能技术生成

import pandas as pd
import csv
import jieba
from collections import Counter, OrderedDict
#数据格式要求:标签列名称为key,文本列标签为title

此处为预设好的标签,根据分类任务自己写标签名
bumen=[‘xxxx处’,‘xx灯’,‘建xx处’,‘绿xxx办’,‘燃xx’,‘城建xxx’,‘公用xxxx’,‘养xxxx’,‘城建xxxx’,‘城xxx’,‘质xxx’,‘人xxx’,‘监xxxx队’,‘村xxx’,‘招xxx’,‘xxxx办’,‘xxxxx室’]

data = pd.read_csv(‘data1.csv’)

fd=open(‘result.txt’,‘a’)
#定义标签
data_key=data[‘label’]

#定义文本内容
data_title=data[‘text’]
#定义变量
fenci=[]
zongcipin=[]
Zongcipin=[]
bumencipin=[]
Bumencipin=[]
fenci.append([‘总词汇’,])
for xx in bumen :
fenci.append([xx,])
bumencihui=[]
for i in range(len(data_key)):
seg_list = jieba.cut(data_title[i], cut_all=False)
for xx in seg_list:
fenci[0].append(xx)
for j in range (len(fenci)):
if fenci[j][0] in data_key[i]:
fenci[j].append(x

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值