对岗位名称进行特征抽取,取出无用字符,保留有用信息

import pandas as pd
import numpy as np
import jieba
from sklearn.feature_extraction.text import CountVectorizer 
data = pd.read_csv('python51job.csv')[:10]     #读取csv里的数据   只取10条
# print(data)
data1 = data['title']     #只取出文件里的标题
	
title = np.array(data1)   #转成numpy
print(title)
'''['Python高级开发工程师' 'Python开发工程师' 'Python工程师' 'Python高级开发工程师'
 'Python开发工程师(支撑平台)' 'Python开发工程师 - 变现业务' 'Python Developer' 'Python开发工程师'
 '高级Python软件开发工程师' 'Python工程师']'''

#遍历title,将获取到的标题遍历后添加到列表
list=[]
for i in title:
    t = ' '.join(jieba.lcut(i))
    list.append(t)
print(list,"=====================")
'''['Python 高级 开发 工程师', 'Python 开发 工程师', 'Python 工程师', 'Python 高级 开发 工程师', 'Python 开发 工程师 ( 支撑 平台 )', 'Python 开发 工程师   -   变现 业务', 'Python   Developer', 'Python 开发 工程师', '高级 Python 软件开发 工程师', 'Python 工程师'] ====================='''

#  CountVectorizer 文本提取器      stop_words=  添加停用词(取出对分析数据无用的名词)
cv = CountVectorizer(stop_words=['软件开发','工程师','高级','平台',"一名",'业务','变现'])
data = cv.fit_transform(list) #处理数据来自jieba分词后的内容  将文字处理成可处理的数字
#抽取特征类别  查看一下所有处理成数字的数据对应的那些标题
print(cv.get_feature_names(),"--------------------")
'''['developer', 'python', '开发', '支撑'] --------------------'''


#抽取结果
print(data.toarray())
'''[[0 1 1 0]
 [0 1 1 0]
 [0 1 0 0]
 [0 1 1 0]
 [0 1 1 1]
 [0 1 1 0]
 [1 1 0 0]
 [0 1 1 0]
 [0 1 0 0]
 [0 1 0 0]]'''


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值