BOSS招聘网站数据分析岗位分析详情
数据来源于BOSS招聘网站,仅供学习
#导包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import re
#中文显示及负号显示
plt.rcParams[‘font.sans-serif’]=[‘SimHei’]
plt.rcParams[‘axes.unicode_minus’]=False
#读取数据
df = pd.read_csv(’./boss.csv’,header=None,names=[‘公司’,‘职位’,‘地点’,‘薪资’,‘工作经验及学历’,‘所属行业’,‘详情’])
df.head()
#查看数据详情
df.info()
#查看是否有重复
df.duplicated().sum()
#删除重复
df.drop_duplicates(inplace=True)
#确认是否删除
df.duplicated().sum()
#查看职位信息
df[‘职位’].unique()
#发现有找实习岗位
sx = df[‘职位’].str.contains(‘实习’)
sx.sum()
#实习岗位数量较少,需进行删除
df = df[~sx]
df.reset_index(drop=True,inplace=True)
df.head()
#查看地点
df[‘地点’].unique()
#查看薪资
df[‘薪资’].unique()
#薪资进行拆分,分为最高薪资和最低薪资
df[‘最低薪资’] = df[‘薪资’].str.extract(’^(\d+).