一、我们要做什么?
- 实验室项目需要采集数据,为了解决这个需求,我们项目组采用了Python爬虫
- 爬虫需要做的就是模拟正常的网络请求,比如你在网站上点击一个网址,就是一次网络请求,
二、怎么做?
在开始爬虫之前,肯定要确定获取数据的来源,即,我们要获取哪里的数据
-
爬虫的基本流程
-
具体过程(以实际需求为例)
在确定了数据的来源之后,如何高效而准确地获取百强企业和生态企业的Java开发工程师的招聘信息,使用网络爬虫技术毫无疑问是最好的选择。网络爬虫程序用Python编写,Python语言相对其他编程语言来说比较简单,但是它的功能却是非常强大的。以获取腾讯官网Java开发工程师招聘信息为例子,对Java开发工程师的招聘信息的爬取流程做如下分析:
-
(一)确定腾讯官网的招聘网址为“https://careers.tencent.com/”,通过网址进入到腾讯招聘官网,信息爬取聚焦在了Java开发工程师岗位上。
-
(二)处理岗位列表页得到具体岗位信息页的链接,因为无法在网页源码中找到具体岗位信息的链接,说明页面是动态加载出来的。对于这类页面,操作方法为,在Chrome浏览器中点击鼠标右键,然后点击“检查”,再点击Network,然后刷新网页进行抓包,找到岗位列表页的数据所在的包,再通过Headers中General的RequestURL找到后端传给前端数据的URL接口
如图所示,岗位列表页进项抓包的具体表现,图中第一个红框中RequestURL为岗位列表页数据包的接口URL,第二个红框得到的信息是请求方式为GET。分析获取到的URL接口,timestamp为时间戳,即当前访问页面的时间,是动态变化的,keyword为查询岗位名称的参数,pageIndex为查询的页面,经过分析发现pageIndex是从第一页pageIndex=1开始递增加一的,将这些变化的参数通过变量的方式代替URL接口中的相关参数,就可以得到岗位列表页的通用URL
岗位列表页的通用URL获取到了,就可以去观察和梳理岗位详情页的通用URL,岗位详情页和岗位列表页的观察和梳理方法基本一致
如图所示,为岗位详情页抓包图,同理,我们可以得到URL接口和请求方法,在经过改变URL接口的参数得到通用URL。岗位列表页和岗位详情页的通用URL均定义了之后,就开始准备爬取数据了
def __init__(self): # timestamp:时间戳;keyword:查询参数;pageIndex:查询页面 # 一级页面的URL地址 self.url = 'https://careers.tencent.com/tencentcareer/api/post/Query?' \ 'timestamp={}&countryId=&cityId=&bgIds=&productId=&categoryId' \ '=&parentCategoryId=&attrId=&keyword={}&pageIndex={}&pageSize=' \ '10&language=zh-cn&area=cn' # 二级页面的URL地址 self.two_url = 'https://careers.tencent.com/tencentcareer/api/post/ByPostId?' \ 'timestamp={}&postId={}&language=zh-cn' # 构建请求头(使用 fake_useragent 构建随机的请求头) self.header = {'User-Agent': UserAgent().random} # 存储所有的 职位数据 self.jobData_list = []
岗位列表页的通用URL和岗位详情页的通用URL分别为self.url和self.two_url
-
(三)构建请求头,一般情况都需要构建请求头,这是最常见的反反爬虫手段,本爬虫程序使用了fake-useragent 随机生成请求头,在利用爬虫程序爬取网站数据时,频繁地更换请求头可以有效地避免触发相应的反爬机制。
-
(四)网页不会主动把数据给我们,所以我们需要用代码模拟人的操作,向想要爬取的网页发送请求,并最终获得想要的数据。
-
(五)保存数据,先存储所有的职位数据到列表中,再借助xlwt模块将数据导入到Excel中存起来
三、总结与反思
- 技术栈是不断积累的,技术也是不断更迭的,我们不应该期待学到一种技术就解决所有的问题,以上实例只是爬虫的一个小部分,真实操作中,我们可能还会遇到各种问题。遇到问题,不要灰心,去网上寻求解决办法就好了,慢慢来,遇到一个问题,然后解决它,就会收获一份经验,这是非常值得的!
- 欢迎大家可以在评论区互相讨论,需要源码也可以在评论联系我