快速上手Python爬虫【通俗易懂版】

一、我们要做什么?

  • 实验室项目需要采集数据,为了解决这个需求,我们项目组采用了Python爬虫
  • 爬虫需要做的就是模拟正常的网络请求,比如你在网站上点击一个网址,就是一次网络请求,

二、怎么做?

在开始爬虫之前,肯定要确定获取数据的来源,即,我们要获取哪里的数据
  1. 爬虫的基本流程
    在这里插入图片描述

  2. 具体过程(以实际需求为例)

在确定了数据的来源之后,如何高效而准确地获取百强企业和生态企业的Java开发工程师的招聘信息,使用网络爬虫技术毫无疑问是最好的选择。网络爬虫程序用Python编写,Python语言相对其他编程语言来说比较简单,但是它的功能却是非常强大的。以获取腾讯官网Java开发工程师招聘信息为例子,对Java开发工程师的招聘信息的爬取流程做如下分析:

  • (一)确定腾讯官网的招聘网址为“https://careers.tencent.com/”,通过网址进入到腾讯招聘官网,信息爬取聚焦在了Java开发工程师岗位上。

  • (二)处理岗位列表页得到具体岗位信息页的链接,因为无法在网页源码中找到具体岗位信息的链接,说明页面是动态加载出来的。对于这类页面,操作方法为,在Chrome浏览器中点击鼠标右键,然后点击“检查”,再点击Network,然后刷新网页进行抓包,找到岗位列表页的数据所在的包,再通过Headers中General的RequestURL找到后端传给前端数据的URL接口
    在这里插入图片描述

    如图所示,岗位列表页进项抓包的具体表现,图中第一个红框中RequestURL为岗位列表页数据包的接口URL,第二个红框得到的信息是请求方式为GET。分析获取到的URL接口,timestamp为时间戳,即当前访问页面的时间,是动态变化的,keyword为查询岗位名称的参数,pageIndex为查询的页面,经过分析发现pageIndex是从第一页pageIndex=1开始递增加一的,将这些变化的参数通过变量的方式代替URL接口中的相关参数,就可以得到岗位列表页的通用URL

    岗位列表页的通用URL获取到了,就可以去观察和梳理岗位详情页的通用URL,岗位详情页和岗位列表页的观察和梳理方法基本一致
    在这里插入图片描述

    如图所示,为岗位详情页抓包图,同理,我们可以得到URL接口和请求方法,在经过改变URL接口的参数得到通用URL。岗位列表页和岗位详情页的通用URL均定义了之后,就开始准备爬取数据了

    def __init__(self):
        # timestamp:时间戳;keyword:查询参数;pageIndex:查询页面
        # 一级页面的URL地址
        self.url = 'https://careers.tencent.com/tencentcareer/api/post/Query?' \
                   'timestamp={}&countryId=&cityId=&bgIds=&productId=&categoryId' \
                   '=&parentCategoryId=&attrId=&keyword={}&pageIndex={}&pageSize=' \
                   '10&language=zh-cn&area=cn'
        # 二级页面的URL地址
        self.two_url = 'https://careers.tencent.com/tencentcareer/api/post/ByPostId?' \
                       'timestamp={}&postId={}&language=zh-cn'
        # 构建请求头(使用 fake_useragent 构建随机的请求头)
        self.header = {'User-Agent': UserAgent().random}
        # 存储所有的 职位数据
        self.jobData_list = []
    

    岗位列表页的通用URL和岗位详情页的通用URL分别为self.url和self.two_url

  • (三)构建请求头,一般情况都需要构建请求头,这是最常见的反反爬虫手段,本爬虫程序使用了fake-useragent 随机生成请求头,在利用爬虫程序爬取网站数据时,频繁地更换请求头可以有效地避免触发相应的反爬机制。

  • (四)网页不会主动把数据给我们,所以我们需要用代码模拟人的操作,向想要爬取的网页发送请求,并最终获得想要的数据。

  • (五)保存数据,先存储所有的职位数据到列表中,再借助xlwt模块将数据导入到Excel中存起来

三、总结与反思

  • 技术栈是不断积累的,技术也是不断更迭的,我们不应该期待学到一种技术就解决所有的问题,以上实例只是爬虫的一个小部分,真实操作中,我们可能还会遇到各种问题。遇到问题,不要灰心,去网上寻求解决办法就好了,慢慢来,遇到一个问题,然后解决它,就会收获一份经验,这是非常值得的!
  • 欢迎大家可以在评论区互相讨论,需要源码也可以在评论联系我
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值