快速上手Python爬虫【通俗易懂版】

ytstartluao

已于 2023-04-09 10:19:12 修改

阅读量623

点赞数

文章标签： python 爬虫

于 2023-04-08 10:22:59 首次发布

本文链接：https://blog.csdn.net/weixin_45746960/article/details/130024811

版权

一、我们要做什么？

实验室项目需要采集数据，为了解决这个需求，我们项目组采用了Python爬虫
爬虫需要做的就是模拟正常的网络请求，比如你在网站上点击一个网址，就是一次网络请求，

二、怎么做？

在开始爬虫之前，肯定要确定获取数据的来源，即，我们要获取哪里的数据

爬虫的基本流程
具体过程（以实际需求为例）

在确定了数据的来源之后，如何高效而准确地获取百强企业和生态企业的Java开发工程师的招聘信息，使用网络爬虫技术毫无疑问是最好的选择。网络爬虫程序用Python编写，Python语言相对其他编程语言来说比较简单，但是它的功能却是非常强大的。以获取腾讯官网Java开发工程师招聘信息为例子，对Java开发工程师的招聘信息的爬取流程做如下分析：

（一）确定腾讯官网的招聘网址为“https://careers.tencent.com/”，通过网址进入到腾讯招聘官网，信息爬取聚焦在了Java开发工程师岗位上。
（二）处理岗位列表页得到具体岗位信息页的链接，因为无法在网页源码中找到具体岗位信息的链接，说明页面是动态加载出来的。对于这类页面，操作方法为，在Chrome浏览器中点击鼠标右键，然后点击“检查”，再点击Network，然后刷新网页进行抓包，找到岗位列表页的数据所在的包，再通过Headers中General的RequestURL找到后端传给前端数据的URL接口

如图所示，岗位列表页进项抓包的具体表现，图中第一个红框中RequestURL为岗位列表页数据包的接口URL，第二个红框得到的信息是请求方式为GET。分析获取到的URL接口，timestamp为时间戳，即当前访问页面的时间，是动态变化的，keyword为查询岗位名称的参数，pageIndex为查询的页面，经过分析发现pageIndex是从第一页pageIndex=1开始递增加一的，将这些变化的参数通过变量的方式代替URL接口中的相关参数，就可以得到岗位列表页的通用URL

岗位列表页的通用URL获取到了，就可以去观察和梳理岗位详情页的通用URL，岗位详情页和岗位列表页的观察和梳理方法基本一致

如图所示，为岗位详情页抓包图，同理，我们可以得到URL接口和请求方法，在经过改变URL接口的参数得到通用URL。岗位列表页和岗位详情页的通用URL均定义了之后，就开始准备爬取数据了
```
def __init__(self):
    # timestamp：时间戳；keyword：查询参数；pageIndex：查询页面
    # 一级页面的URL地址
    self.url = 'https://careers.tencent.com/tencentcareer/api/post/Query?' \
               'timestamp={}&countryId=&cityId=&bgIds=&productId=&categoryId' \
               '=&parentCategoryId=&attrId=&keyword={}&pageIndex={}&pageSize=' \
               '10&language=zh-cn&area=cn'
    # 二级页面的URL地址
    self.two_url = 'https://careers.tencent.com/tencentcareer/api/post/ByPostId?' \
                   'timestamp={}&postId={}&language=zh-cn'
    # 构建请求头(使用 fake_useragent 构建随机的请求头)
    self.header = {'User-Agent': UserAgent().random}
    # 存储所有的 职位数据
    self.jobData_list = []
```
岗位列表页的通用URL和岗位详情页的通用URL分别为self.url和self.two_url
（三）构建请求头，一般情况都需要构建请求头，这是最常见的反反爬虫手段，本爬虫程序使用了fake-useragent 随机生成请求头，在利用爬虫程序爬取网站数据时，频繁地更换请求头可以有效地避免触发相应的反爬机制。
（四）网页不会主动把数据给我们，所以我们需要用代码模拟人的操作，向想要爬取的网页发送请求，并最终获得想要的数据。
（五）保存数据，先存储所有的职位数据到列表中，再借助xlwt模块将数据导入到Excel中存起来

三、总结与反思

技术栈是不断积累的，技术也是不断更迭的，我们不应该期待学到一种技术就解决所有的问题，以上实例只是爬虫的一个小部分，真实操作中，我们可能还会遇到各种问题。遇到问题，不要灰心，去网上寻求解决办法就好了，慢慢来，遇到一个问题，然后解决它，就会收获一份经验，这是非常值得的！
欢迎大家可以在评论区互相讨论，需要源码也可以在评论联系我