数据分析岗前景分析-拉勾网爬虫

目的

近年来随着人工智能和大数据的发展,数据分析岗也越发火热;想了解目前市场上数据分析岗对人才的需求状况、行业薪资及未来发展前景等,爬取拉勾网数据分析相关岗位近2700条数据做了一次分析

写作步骤

  • 数据采集
  • 数据清洗
  • 数据可视化
  • 结论

数据采集

因为拉钩反爬严重,因此用了代理IP、加了请求头,并创建了session对象进行请求,直接附上代码

#调用相关模块,其中pymysql是为了将爬到的数据存到mysql
import requests
import time
import random
import pymysql

# 打开数据库连接
db = pymysql.connect('localhost','root','root','kkb')
# 获取cursor来操作数据库
cursor = db.cursor()
# 创建一张数据表(注:此操作也可在mysql完成)
sql = """create table la_gou(
          company_name varchar(30),
          company_short_name varchar(20),
          city varchar(20),
          district varchar(20),
          company_size varchar(20),
          company_field varchar(20),
          company_stage varchar(20),
          education varchar(20),
          position_name varchar(20),
          position_advantage varchar(30),
          work_year varchar(20),
          salary varchar(20),
          position_id varchar(20))"""
 # 使用 execute() 方法执行 SQL
 cursor.execute(sql)

#创建session对象
session = requests.Session()
#在网上找的代理IP,防止IP被封爬取失败
proxie = [
    "134.249.156.3:82",
    "1.198.72.239:9999",
    "103.26.245.190:43328"]
proxies = {'http':random.sample(proxie,1)}
#添加请求头
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36',
           'Accept': 'text / html, application / xhtml + xml, application / xml;q = 0.9, image / webp, image / apng, * / *;q = 0.8, application / signed - exchange;v = b3',
           'Referer': 'https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E5%B8%88?labelWords=&fromSearch=true&suginput='}
url_start = 'https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E5%B8%88?labelWords=&fromSearch=true&suginput='
session.get(url_start,headers = headers,timeout = 5)
time.sleep(5)

n = 0
list_position = ['数据分析师','数据分析助理','数据分析专家','数据分析专员','数据分析主管','数据分析']
for i in list_position:
    for j in range(1,31):
        url_params = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'
        data = {
            'irst': 'true',
            'pn': str(j),
            'kd':i
            }
        res_position = session.post(url_params,data = data,headers = headers,proxies = proxies,timeout = 5)
        t
  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

xiaocai1python

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值