数据分析师岗位需求分析

数据分析师岗位需求分析

【一】分析背景:
准备转行数据分析,但缺乏对该行业的一个全方位的认知,所以利用Python爬虫爬取了当天前程无忧上2020/5/18数据分析师全文的信息,分析数据分析师岗位的相关信息。因为快半年没写爬虫了,中途出了好几次问题,最后第二天才把数据爬下来整理了(爬虫过程略,感兴趣的可以私信我共同讨论)。

【二】数据集描述
爬虫没有写的很好,所以数据看起来没那么友好。数据集总共10个字段,总共8028条数据.在这里插入图片描述
数据集字段名都是中文,相关信息一目了然。不再做赘述。

【三】数据导入
1)python包导入及数据读取

import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.pyplot as plt
import matplotlib,jieba,chardet,re
from wordcloud import WordCloud
orginaldata = pd.read_excel('.\Data\\数据分析师全文.xls')

2)数据简述

orginaldata.info()
orginaldata.shape

<class ‘pandas.core.frame.DataFrame’>
RangeIndex: 8028 entries, 0 to 8027
Data columns (total 10 columns):
职位名称 8028 non-null object
公司 8028 non-null object
工作地点 8028 non-null object
薪水 7398 non-null object
福利待遇 5801 non-null object
公司类型 7904 non-null object
公司规模 7536 non-null object
公司行业 7905 non-null object
其他信息 7905 non-null object
岗位详情 7905 non-null object
dtypes: object(10)
memory usage: 627.3+ KB
(8028, 10)

可以看出,数据集有8028行10列数据,其中只有“职位名称”,“工作地点”及“公司”三个字段没有缺失值。
回溯之前爬虫过程;空值的原因,①是该职位没有写该类信息 ②详情页跳转到公司的官网,爬虫没能正式生效。

3)查看数据基本构成

orginaldata.head()

在这里插入图片描述
可以看出数据很脏,需要花大力气清洗。

【四】数据清洗
1)岗位分布城市
数据集中的工作地点有些会带城区名,会影响我们对于城市的分布的判断,分列提取出工作城市。

data=orginaldata
data["工作城市"] = [i[0] for i in data0["工作地点"].str.split("-")]
data["工作城市"]

在这里插入图片描述
2)从其他信息中提取工作经验要求及学历要求。
①工作经验和学历要求提取

data['其他信息'].isnull().sum()

在这里插入图片描述
其他信息中有123条空值。

工作经验

ex = []
temp1 = data["其他信息"].str.split("|")
for i in temp1:
    try:
        if i[1].find("经") != -1 or i[1].find("生") != -1:
            ex.append(i[1])
        else:
            ex.append("")
    except:
        ex.append("")

学历要求

edu=[]
x=1
for i in temp1:
    if type(i) == list:
        try:
            if i[2].find("本科") != -1 or i[2].find("硕士") != -1 or i[2].find("大专") != -1 or i[2].find("高中") != -1 or i[2].find("中专") != -1 or i[2].find("博士") != -1 or i[2].find("初中") != -1 or i[2].find("中技") != -1:
                edu.append(i[2])
                x+=1
            elif i[1].find("本科") != -1 or i[1].find("硕士") != -1 or i[1].find("大专") != -1 or
  • 7
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值