Python、Java 薪资最高，C# 垫底：分析什么编程语言最赚钱！

本文链接：https://blog.csdn.net/zhuguanghalo/article/details/85259966

在这里插入图片描述
本文主要用Python爬取拉勾网不同编程语言职位信息，包括Python岗、Java岗、C++岗、PHP岗、C#岗位（5岗），再用R语言对影响薪资的因素进行分析。由于拉勾网的职位信息只显示30页，一页15个职位信息，如果单独爬取一个城市的岗位信息，只有几页是匹配的信息，信息量太小，分析没有说服力。因此，本文爬取拉勾网全国职位信息。主要包括三部分内容：

爬取拉勾网5岗职位信息，以Python岗为例；
以Python岗位信息为例，分析影响薪资的因素；
5岗之间薪水因素影响比较分析。

爬取拉勾网5岗职位信息——以Python岗为例

我们抓取的信息包括Python岗位名称、公司名称、薪资、工作经验、学历、公司规模、公司福利。
在这里插入图片描述

##以python岗位为例，运用selenium+Chrome()爬取岗位信息

coding=UTF-8 from lxml import etree from selenium import webdriver import time import csv browser = webdriver.Chrome()

browser.get(‘https://www.lagou.com/jobs/list_PYTHON?px=default&city=全国#filterBox’)
browser.implicitly_wait(10) def get_dates(selector): items =
selector.xpath(’//[@id=“s_position_list”]/ul/li’) for item in items:
yield { ‘Name’: item.xpath(‘div[1]/div[1]/div[1]/a/h3/text()’)[0],
‘Company’: item.xpath(‘div[1]/div[2]/div[1]/a/text()’)[0], ‘Salary’:
item.xpath(‘div[1]/div[1]/div[2]/div/span/text()’)[0], ‘Education’:
item.xpath(‘div[1]/div[1]/div[2]/div//text()’)[3].strip(), ‘Size’:
item.xpath(‘div[1]/div[2]/div[2]/text()’)[0].strip(), ‘Welfare’:
item.xpath(‘div[2]/div[2]/text()’)[0] } def main(): i = 0 for i in
range(30): selector = etree.HTML(browser.page_source)
browser.find_element_by_xpath(’//[@id=“order”]/li/div[4]/div[2]’).click()
time.sleep(5) print(‘第{}页抓取完毕’.format(i+1)) for item in
get_dates(selector): print(item) with open(‘Py.csv’, ‘a’,
newline=’’) as csvfile: ##Py.csv是文件的保存路径，这里默认保存在工作目录 fieldnames =
[‘Name’, ‘Company’, ‘Salary’, ‘Education’, ‘Size’, ‘Welfare’] writer
= csv.DictWriter(csvfile, fieldnames=fieldnames) writer.writeheader() for item in get_dates(selector): writer.writerow(item) time.sleep(5)
browser.close() if name==‘main’: main()

抓取结果如下：

将抓取结果循环写入csv文件：

在这里插入图片描述

此外还抓取了Java岗、C++岗、PHP岗、C#岗位4岗的信息，代码和抓取Python岗位信息类似。

以Python岗位信息为例，分析影响薪资的因素

这里包括数据清洗部分和数据分析部分两部分内容。

数据清洗部分

data<-read.csv(“E://Data For R/RData/Py.csv”)
data[sample(1:nrow(data),size=10),]

在这里插入图片描述

在抓取过程中，由于将Python字典循环写入csv文件，因此列名也被循环写在csv文件中。
在这里插入图片描述

考虑本文主要分析影响薪资的因素，这里去除Name和Company两列。

##去除Name和Company两列 DATA<-data[,-c(1,2)]
##将python字典循环写入csv文件时，标题也会被写入，去除多余的标题
##查找哪些行是标题重复的行 which(DATA $KaTeX parse error: Expected 'EOF', got '#' at position 171: \dots4] 534 550 566 #̲#去除多余的标题所在的行 DA\dots$ Salary %in% “Salary”)),] dim(DATA) [1] 545 4

1.变量Salary

变量Salary一般都是范围值，用“-”连接，但是不排除有XXK以上，例如10k以上这种表示形式，或者其他形式，这里需要处理一下。

##如果薪资是一个范围值，都是"-"连接，注意，薪资是一个范围值，匹配末尾结束k值需要注意，有大写K和小写k两种形式。 newdata<-DATA[grep(’\-’,DATA $KaTeX parse error: Expected 'EOF', got '#' at position 34: \dotsata) [1] 544 4 #̲#对比前面dim(DATA)，\dots$ lowsalary<-str_replace(newdata $KaTeX parse error: Expected 'EOF', got '#' at position 20: \dotsalary,'k|K',"")#̲# |表示或的关系 newda\dots$ highsalary<-str_replace(newdata