爬虫
周攀panda
这个作者很懒,什么都没留下…
展开
-
requests库爬取(post请求)拉勾网,并存入json文件
requests爬取拉钩网 首先还是老样子,打开拉勾网的网址,先进行一波分析 查看网页源代码搜索,第一个职位名称大数据开发工程师,发现不在源码里 这时我们就要利用开发者工具在找接口 找到接口发现数据都存在该接口里,且发现请求为post请求,请求所需要data也找到了,大概可以猜测pn就是这个职位的页数,所以我们的翻页操作就可以靠改变pn的值来实现,kd就是我们搜索的职位,我们可以通过改变它的值从而达到搜索其他职位信息的操作。 明确目标之后我们就可以来写代码了: 完整代码如下: import requ原创 2020-11-26 15:10:22 · 880 阅读 · 0 评论 -
requests库(正则提取)爬取千图网
request库(正则提取)爬取千图网 首先分析网页结构 打开千图网的网址搜索春节 打开网页源代码,发现跳转链接存在网页源代码里 接下来我们就利用正则表达式去提取 正则表达式最主要的就是找到你想要信息的标识符,例如上图,一页图片36 张,我们利用stats-point=“1121”>找到的也是36个,所以正则表达式就很好写了。代码如下: baseurllist=re.findall('stats-point="1121"><a href="(.*?)" target="_blank" d原创 2020-11-25 10:41:30 · 804 阅读 · 1 评论 -
requests库爬取汽车之家(get请求)并存入csv文件
request库爬取汽车之家(get请求) 首先分析网页结构 查看网页源代码发现标题,图片url,福利和购买跳转链接id都在源码里有: 所以对于标题,福利,和图片url都在标签里,我们可以用xpath进行提取,而购买跳转链接id在json形式的字符串里,所以我们用正则表达式提取 代码如下: title=etree.HTML(req.text).xpath('//*[@id="list"]/ul/li[1]/a/div[4]/text()') newtitle=title[0].replace('\r\原创 2020-11-24 16:49:56 · 1265 阅读 · 2 评论 -
urllib库爬取拍信创意图片(post请求)json传参
urllib库爬取拍信创意图片 解决urllib库遇到Request payload传参问题 分析网页: 找到接口: 发现图片数据都是以json格式存储在这个接口里 我们在来看接口所需要的data,这里的searchQuery参数就是我们搜索的值,所以我们可以改变它,从而爬取更多类型的图片,page就是页码,size就是每页的图片数。 明确目标后,我们就可以开始写代码了 代码如下: #url就是接口上的url url='https://api2.paixin.com/medias/1/search?p原创 2020-11-23 16:52:47 · 869 阅读 · 0 评论 -
urllib库爬取51job(get请求)
urllib库爬取51job 首先打开51job网页,分析网页结构,发现自己想要的字段全部在网页源码里,以json格式存储,且编码为‘gbk’ 所以我们要通过正则表达式把它提取出来 代码如下: url='https://search.51job.com/list/190200%252c040000,000000,0000,00,9,99,%25E5%25A4%25A7%25E6%2595%25B0%25E6%258D%25AE,2,{}.html?lang=c&postchannel=0000&原创 2020-11-20 11:36:38 · 359 阅读 · 3 评论