import pandas as pd
import numpy as np
import jieba
from sklearn.feature_extraction.text import CountVectorizer
data = pd.read_csv('python51job.csv')[:10] #读取csv里的数据 只取10条
# print(data)
data1 = data['title'] #只取出文件里的标题
title = np.array(data1) #转成numpy
print(title)
'''['Python高级开发工程师' 'Python开发工程师' 'Python工程师' 'Python高级开发工程师'
'Python开发工程师(支撑平台)' 'Python开发工程师 - 变现业务' 'Python Developer' 'Python开发工程师'
'高级Python软件开发工程师' 'Python工程师']'''
#遍历title,将获取到的标题遍历后添加到列表
list=[]
for i in title:
t = ' '.join(jieba.lcut(i))
list.append(t)
print(list,"=====================")
'''['Python 高级 开发 工程师', 'Python 开发 工程师', 'Python 工程师', 'Python 高级 开发 工程师', 'Python 开发 工程师 ( 支撑 平台 )', 'Python 开发 工程师 - 变现 业务', 'Python Developer', 'Python 开发 工程师', '高级 Python 软件开发 工程师', 'Python 工程师'] ====================='''
# CountVectorizer 文本提取器 stop_words= 添加停用词(取出对分析数据无用的名词)
cv = CountVectorizer(stop_words=['软件开发','工程师','高级','平台',"一名",'业务','变现'])
data = cv.fit_transform(list) #处理数据来自jieba分词后的内容 将文字处理成可处理的数字
#抽取特征类别 查看一下所有处理成数字的数据对应的那些标题
print(cv.get_feature_names(),"--------------------")
'''['developer', 'python', '开发', '支撑'] --------------------'''
#抽取结果
print(data.toarray())
'''[[0 1 1 0]
[0 1 1 0]
[0 1 0 0]
[0 1 1 0]
[0 1 1 1]
[0 1 1 0]
[1 1 0 0]
[0 1 1 0]
[0 1 0 0]
[0 1 0 0]]'''
对岗位名称进行特征抽取,取出无用字符,保留有用信息
最新推荐文章于 2021-01-29 07:42:37 发布