数据分析师岗位需求分析

最新推荐文章于 2021-04-10 12:52:41 发布

纸包不住火

最新推荐文章于 2021-04-10 12:52:41 发布

阅读量2.7k

点赞数 7

分类专栏：数据分析 Python 文章标签：数据分析 python

本文链接：https://blog.csdn.net/weixin_44964314/article/details/106243959

版权

数据分析师岗位需求分析

【一】分析背景：
准备转行数据分析，但缺乏对该行业的一个全方位的认知，所以利用Python爬虫爬取了当天前程无忧上2020/5/18数据分析师全文的信息，分析数据分析师岗位的相关信息。因为快半年没写爬虫了，中途出了好几次问题，最后第二天才把数据爬下来整理了（爬虫过程略，感兴趣的可以私信我共同讨论）。

【二】数据集描述
爬虫没有写的很好，所以数据看起来没那么友好。数据集总共10个字段，总共8028条数据. 在这里插入图片描述
数据集字段名都是中文，相关信息一目了然。不再做赘述。

【三】数据导入
1）python包导入及数据读取

import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.pyplot as plt
import matplotlib,jieba,chardet，re
from wordcloud import WordCloud
orginaldata = pd.read_excel('.\Data\\数据分析师全文.xls')

2）数据简述

orginaldata.info()
orginaldata.shape

<class ‘pandas.core.frame.DataFrame’>
RangeIndex: 8028 entries, 0 to 8027
Data columns (total 10 columns):
职位名称 8028 non-null object
公司 8028 non-null object
工作地点 8028 non-null object
薪水 7398 non-null object
福利待遇 5801 non-null object
公司类型 7904 non-null object
公司规模 7536 non-null object
公司行业 7905 non-null object
其他信息 7905 non-null object
岗位详情 7905 non-null object
dtypes: object(10)
memory usage: 627.3+ KB
(8028, 10)
可以看出，数据集有8028行10列数据，其中只有“职位名称”，“工作地点”及“公司”三个字段没有缺失值。
回溯之前爬虫过程；空值的原因，①是该职位没有写该类信息 ②详情页跳转到公司的官网，爬虫没能正式生效。

3）查看数据基本构成

orginaldata.head()

在这里插入图片描述
可以看出数据很脏，需要花大力气清洗。

【四】数据清洗
1）岗位分布城市
数据集中的工作地点有些会带城区名，会影响我们对于城市的分布的判断，分列提取出工作城市。

data=orginaldata
data["工作城市"] = [i[0] for i in data0["工作地点"].str.split("-")]
data["工作城市"]

在这里插入图片描述
2）从其他信息中提取工作经验要求及学历要求。
①工作经验和学历要求提取

data['其他信息'].isnull().sum()

在这里插入图片描述
其他信息中有123条空值。

工作经验

ex = []
temp1 = data["其他信息"].str.split("|")
for i in temp1:
    try:
        if i[1].find("经") != -1 or i[1].find("生") != -1:
            ex.append(i[1])
        else:
            ex.append("")
    except:
        ex.append("")

学历要求

edu=[]
x=1
for i in temp1:
    if type(i) == list:
        try:
            if i[2].find("本科") != -1 or i[2].find("硕士") != -1 or i[2].find("大专") != -1 or i[2].find("高中") != -1 or i[2].find("中专") != -1 or i[2].find("博士") != -1 or i[2].find("初中") != -1 or i[2].find("中技") != -1:
                edu.append(i[2])
                x+=1
            elif i[1].find("本科") != -1 or i[1].find("硕士") != -1 or i[1].find("大专") != -1 or

最低0.47元/天解锁文章

纸包不住火

关注

7
点赞
踩
25

收藏

觉得还不错? 一键收藏
4
评论
数据分析师岗位需求分析

背景：准备转行做数据分析，但是一直没什么好拿的出的项目。周末闲下来的时候利用Python爬虫爬取了当天前程无忧上关于数据分析师的岗位，分析一波。因为快半年没写爬虫了，中途出了好几次问题，最后第二天才把数据爬下来整理了（爬虫过程略，感兴趣的可以私信我共同讨论）。数据集描述爬虫没有写的很好，所有数据清洗比较浪费时间。数据集总共10个字段，总共8028条数据.数据集是中文，相关信息一目了然。不再做赘述。数据导入数据读取import pandas as pdimport matplotlib.py
复制链接

扫一扫