对岗位名称进行特征抽取，取出无用字符，保留有用信息

最新推荐文章于 2021-01-29 07:42:37 发布

苏路

最新推荐文章于 2021-01-29 07:42:37 发布

阅读量183

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_44847045/article/details/89889937

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

import pandas as pd
import numpy as np
import jieba
from sklearn.feature_extraction.text import CountVectorizer 
data = pd.read_csv('python51job.csv')[:10]     #读取csv里的数据   只取10条
# print(data)
data1 = data['title']     #只取出文件里的标题
	
title = np.array(data1)   #转成numpy
print(title)
'''['Python高级开发工程师' 'Python开发工程师' 'Python工程师' 'Python高级开发工程师'
 'Python开发工程师（支撑平台）' 'Python开发工程师 - 变现业务' 'Python Developer' 'Python开发工程师'
 '高级Python软件开发工程师' 'Python工程师']'''

#遍历title，将获取到的标题遍历后添加到列表
list=[]
for i in title:
    t = ' '.join(jieba.lcut(i))
    list.append(t)
print(list,"=====================")
'''['Python 高级 开发 工程师', 'Python 开发 工程师', 'Python 工程师', 'Python 高级 开发 工程师', 'Python 开发 工程师 （ 支撑 平台 ）', 'Python 开发 工程师   -   变现 业务', 'Python   Developer', 'Python 开发 工程师', '高级 Python 软件开发 工程师', 'Python 工程师'] ====================='''

#  CountVectorizer 文本提取器      stop_words=  添加停用词（取出对分析数据无用的名词）
cv = CountVectorizer(stop_words=['软件开发','工程师','高级','平台',"一名",'业务','变现'])
data = cv.fit_transform(list) #处理数据来自jieba分词后的内容  将文字处理成可处理的数字
#抽取特征类别  查看一下所有处理成数字的数据对应的那些标题
print(cv.get_feature_names(),"--------------------")
'''['developer', 'python', '开发', '支撑'] --------------------'''


#抽取结果
print(data.toarray())
'''[[0 1 1 0]
 [0 1 1 0]
 [0 1 0 0]
 [0 1 1 0]
 [0 1 1 1]
 [0 1 1 0]
 [1 1 0 0]
 [0 1 1 0]
 [0 1 0 0]
 [0 1 0 0]]'''