数据分析的待遇怎么样?有什么要求?用爬虫和图告诉你

👉👉👉 哈喽!大家好,我是【大数据的奇妙冒险】的作者 Maxim,具有 Java 以及大数据开发经验,目前是一位大数据领域项目经理。
擅长 Java、大数据开发、项目管理等。持有 PMP 和 系统架构设计师证书,可以说是持证上岗了😀
如果有对【大数据】感兴趣的朋友,欢迎关注【大数据的奇妙冒险】



为了让大伙了解python数据分析有关行业的信息,大概地了解一下对这个行业的要求以及薪资状况,决定从网上获取信息并进行分析。

既然想要分析就必须要有数据,于是选择了某勾,得到信息。话不多说,直接开始。

一、明确目的

每次爬虫都要有明确的目的,刚接触随便找东西试水的除外。我想要知道的是python数据分析的要求以及薪资状况,因此,薪资、学历、工作经验以及一些任职要求就是我的目的。

既然明确了目的,我们就要看一下它们在什么位置,所以我们打开浏览器,寻找目标。像这种网站他们的信息一般都是通过ajax加载的,而且在输入“python数据分析”敲击回车之后跳转的页面,招聘信息不是一开始就显示出来的,通过点击页码也只是招聘信息在变化甚至连network都没多大变化,可以大胆猜测他是通过post请求的,所以我们只关注post请求以及XHR文件,很快就发现了我们要的东西。

在这里插入图片描述

点击preview可见详细信息以json形式保存着,其中‘salary’、‘workYear’、‘education’、‘positionID’(招聘信息详情页有关的id)是我们要的。再观察一下它的form data,其中kd=关键字,pn=pageNum(页码)这是我们请求的时候要带上的参数。另外我们要注意请求头的referer参数,待会儿要用。知道了目标之后,爬起来!

二、开始爬虫

先设置请求头headers,把平时用的user-agent带上,再把formdata也带上,用requests库直接requests.post(url, headers=headers, data=formdata),然后就开始报错了:{“status”:false,“msg”:“您操作太频繁,请稍后再访问”,“clientIp”:“…”,“state”:2402}。

解决这个问题的关键在于,了解其反爬机制:在进入python数据分析招聘页之前,我们要在主页,不妨叫它start_url输入关键字跳转。在这个过程中,服务器会传回来一个cookies,如果带着这个cookies请求的话我们就可以得到要的东西,所以要先请求start_url获取cookies在请求目标url,而且在请求目标地址的话还要带上referer这个请求头参数,referer的含义大概是这样:告诉服务器我是从哪个页面链接过来的,服务器基此可以获得一些信息用于处理。另外,睡眠时间也要设置的长一点,不然很容易被封。知道了反爬机制之后,话不多说,直接上代码。


'''

@author: Max_Lyu

'''

    # 请求起始 url 返回 cookies
    def get_start_url(self):
        session = requests.session()
        session.get(self.start_url, headers=self.headers, timeout=3)
        cookies = session.cookies
        return cookies

    # 将返回的 cookies 一起 post 给 target_url 并获取数据
    def post_target_url(self):
        cookies = self.get_start_url()
        pn = 1
        for pg in range(30):
            formdata = {
                'first': 'false',
                'pn': pn,
                'kd': 'python数据分析'
            }
            pn += 1

            response = requests.post(self.target_url, data=formdata, cookies=cookies, headers=self.headers, timeout=3)
            self.parse(response)
            time.sleep(60)      # 短睡眠时间会被封

    # 解析 response,获取 items
    def parse(self, response):
        print(response)
        items = []
        print(response.text)
        data = json.loads(response.text)['content']['positionResult']['result']

        if len(data):
            for i in range(len(data)):
                positionId = data[i]['positionId']
                education = data[i]['education']
                workYear = data[i]['workYear']
                salary = data[i]['salary']
                list = [positionId, education, workYear, salary]
                items.append(list)
        self.save_data(items)
        time.sleep(1.3)
 

其中save_data(items)是保存文件,我是保存在csv文件。篇幅有限,这里就不展示了。

三、获取招聘详情

上面说了positionID 是为了获取详情页,详情页里面有要的任职要求。这个要获取就相对容易了,不过文本的处理并没有很简单,我只能通过“要求”这两个字获取任职要求(虽然有的为任职技能啥的,就这样进行取舍了)。

'''

@author: Max_Lyu

'''

def get_url():
    urls = []
    with open("analyst.csv", 'r', newline='') as file:
        # 读取文件
        reader = csv.reader(file)
        for row in reader:
            # 根据 positionID 补全 url
            if row[0] != "ID":
                url = "https://www.lagou.com/jobs/{}.html".format(row[0])
                urls.append(url)

    file.close()
    return urls


# 获取详细信息
def get_info():
    urls = get_url()
    length = len(urls)
    for url in urls:
        print(url)
        description = ''
        print(length)
        response = requests.get(url, headers=headers)
        response.encoding = 'utf-8'
        content = etree.HTML(response.text)
        detail = content.xpath('//*[@id="job_detail"]/dd[2]/div/p/text()')
        print(detail)

        for i in range(1, len(detail)):

            if '要求' in detail[i-1]:
                for j in range(i, len(detail)):
                    detail[j] = detail[j].replace('\xa0', '')
                    detail[j] = re.sub('[、;;.0-9。]', '', detail[j])
                    description = description + detail[j] + '/'
                print(description)
        write_file(description)
        length -= 1
        time.sleep(3)
 

四、查看数据

在这里插入图片描述

在这里插入图片描述

 read_file = "analyst.csv"
# 读取文件获得数据
data = pd.read_csv(read_file, encoding="gbk")
# 去除数据中无关的列
data = data[:].drop(['ID'], axis=1)
# 描述性统计
data.describe()

在这里插入图片描述
结果中的 unique 表示的是在该属性列下面存在的不同值个数,以学历要求为例子,它包含【本科、大专、硕士、不限】这4个不同的值,top 则表示数量最多的值为【本科】,freq 表示出现的频率为 387。

由于薪资的 unique 比较多,我们查看一下存在什么值。

print(data['学历要求'].unique())
print(data['工作经验'].unique())
print(data['薪资'].unique())

在这里插入图片描述

五、预处理

从上述两张图可以看到,学历要求和工作经验的值比较少且没有缺失值与异常值,可以直接进行分析;但薪资的分布比较多,总计有75种,为了更好地进行分析,我们要对薪资做一个预处理。根据其分布情况,可以将它分成【5k 以下、5k-10k、10k-20k、20k-30k、30k-40k、40k 以上】,为了更加方便我们分析,取每个薪资范围的中位数,并划分到我们指定的范围内。

# 对薪资进行预处理
def pre_salary(data):
    salarys = data['薪资'].values
    salary_dic = {}
    for salary in salarys:
        # 根据'-'进行分割并去掉'k',分别将两端的值转换成整数
        min_sa = int(salary.split('-')[0][:-1])
        max_sa = int(salary.split('-')[1][:-1])
        # 求中位数
        median_sa = (min_sa + max_sa) / 2
        # 判断其值并划分到指定范围
        if median_sa < 5:
            salary_dic[u'5k以下'] = salary_dic.get(u'5k以下', 0) + 1
        elif median_sa >= 5 and median_sa < 10:
            salary_dic[u'5k-10k'] = salary_dic.get(u'5k-10k', 0) + 1
        elif median_sa >= 10 and median_sa < 20:
            salary_dic[u'10k-20k'] = salary_dic.get(u'10k-20k', 0) + 1
        elif median_sa >= 20 and median_sa < 30:
            salary_dic[u'20k-30k'] = salary_dic.get(u'20k-30k', 0) + 1
        elif median_sa >= 30 and median_sa < 40:
            salary_dic[u'30k-40k'] = salary_dic.get(u'30k-40k', 0) + 1
        else:
            salary_dic[u'40以上'] = salary_dic.get(u'40以上', 0) + 1
    print(salary_dic)
    return salary_dic

对【薪资】进行预处理之后,还要对【任职要求】的文本进行预处理。因为要做成词云图,需要对文本进行分割并去除掉一些出现频率较多但没有意义的词,我们称之为停用词,所以我们用 jieba 库进行处理。jieba 是一个python实现的分词库,对中文有着很强大的分词能力。


import jieba
def cut_text(text):
    stopwords =['熟悉','技术','职位','相关','工作','开发','使用','能力',
                '优先','描述','任职','经验','经验者','具有','具备','以上','善于',
                '一种','以及','一定','进行','能够','我们']
    for stopword in stopwords:
        jieba.del_word(stopword)
    
    words = jieba.lcut(text)
    content = " ".join(words)
    return content

六、可视化分析

我们先绘制环状图和柱状图,然后将数据传进去就行了,环状图的代码如下:

def draw_pie(dic):
    labels = []
    count = []
    
    for key, value in dic.items():
        labels.append(key)
        count.append(value)
        
    fig, ax = plt.subplots(figsize=(8, 6), subplot_kw=dict(aspect="equal"))

    # 绘制饼状图,wedgeprops 表示每个扇形的宽度
    wedges, texts = ax.pie(count, wedgeprops=dict(width=0.5), startangle=0)
    # 文本框设置
    bbox_props = dict(boxstyle="square,pad=0.9", fc="w", ec="k", lw=0)
    # 线与箭头设置
    kw = dict(xycoords='data', textcoords='data', arrowprops=dict(arrowstyle="-"),
              bbox=bbox_props, zorder=0, va="center")

    for i, p in enumerate(wedges):
        ang = (p.theta2 - p.theta1)/2. + p.theta1
        y = np.sin(np.deg2rad(ang))
        x = np.cos(np.deg2rad(ang))
        # 设置文本框在扇形的哪一侧
        horizontalalignment = {-1: "right", 1: "left"}[int(np.sign(x))]
        # 用于设置箭头的弯曲程度
        connectionstyle = "angle,angleA=0,angleB={}".format(ang)
        kw["arrowprops"].update({"connectionstyle": connectionstyle})
        # annotate()用于对已绘制的图形做标注,text是注释文本,含 'xy' 的参数跟坐标点有关
        text = labels[i] + ": " + str('%.2f' %((count[i])/sum(count)*100)) + "%"
        ax.annotate(text, size=13, xy=(x, y), xytext=(1.35*np.sign(x), 1.4*y),
                     horizontalalignment=horizontalalignment, **kw)
    plt.show()

柱状图的代码如下:


def draw_workYear(data):
    workyears = list(data[u'工作经验'].values)
    wy_dic = {}
    labels = []
    count = []
    # 得到工作经验对应的数目并保存到count中
    for workyear in workyears:
        wy_dic[workyear] = wy_dic.get(workyear, 0) + 1
    print(wy_dic)
    # wy_series = pd.Series(wy_dic)
    # 分别得到 count 的 key 和 value
    for key, value in wy_dic.items():
        labels.append(key)
        count.append(value)
    # 生成 keys 个数的数组
    x = np.arange(len(labels)) + 1
    # 将 values 转换成数组
    y = np.array(count)
    
    fig, axes = plt.subplots(figsize=(10, 8))
    axes.bar(x, y, color="#1195d0")
    plt.xticks(x, labels, size=13, rotation=0)
    plt.xlabel(u'工作经验', fontsize=15)
    plt.ylabel(u'数量', fontsize=15)
    
    # 根据坐标将数字标在图中,ha、va 为对齐方式
    for a, b in zip(x, y):
        plt.text(a, b+1, '%.0f' % b, ha='center', va='bottom', fontsize=12)
    plt.show()

我们再把学历要求和薪资的数据稍微处理一下变成字典形式,传进绘制好的环状图函数就行了。另外,我们还要对【任职要求】的文本进行可视化。


from wordcloud import WordCloud
# 绘制词云图
def draw_wordcloud(content):
    
    wc = WordCloud(
        font_path = 'c:\\Windows\Fonts\msyh.ttf',
        background_color = 'white',
        max_font_size=150,  # 字体最大值
        min_font_size=24,  # 字体最小值
        random_state=800, # 随机数
        collocations=False, # 避免重复单词
        width=1600,height=1200,margin=35, # 图像宽高,字间距
    )
    wc.generate(content)

    plt.figure(dpi=160) # 放大或缩小
    plt.imshow(wc, interpolation='catrom',vmax=1000)
    plt.axis("off") # 隐藏坐标

七、分析结果

在这里插入图片描述
python数据分析师的学历大部分要求是本科,占了86%。
  
在这里插入图片描述
从柱状图可以看出,python数据分析师的工作经验绝大部分要求1-5年。

在这里插入图片描述

由此可以得出python数据分析的工资为10k-30k的比较多,工资高的估计要求会比较高,所以我们看一下职位要求。

在这里插入图片描述
从词云图可看出,数据分析肯定要对数据比较敏感,并且对统计学、excel、python、数据挖掘、hadoop等也有一定的要求。不仅如此,还要求具有一定的抗压能力、解决问题的能力、良好的表达能力、思维能力等。


转载请注明出处:【大数据的奇妙冒险】

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值