request库get请求
周攀panda
这个作者很懒,什么都没留下…
展开
-
requests库(正则提取)爬取千图网
request库(正则提取)爬取千图网 首先分析网页结构 打开千图网的网址搜索春节 打开网页源代码,发现跳转链接存在网页源代码里 接下来我们就利用正则表达式去提取 正则表达式最主要的就是找到你想要信息的标识符,例如上图,一页图片36 张,我们利用stats-point=“1121”>找到的也是36个,所以正则表达式就很好写了。代码如下: baseurllist=re.findall('stats-point="1121"><a href="(.*?)" target="_blank" d原创 2020-11-25 10:41:30 · 809 阅读 · 1 评论 -
requests库爬取汽车之家(get请求)并存入csv文件
request库爬取汽车之家(get请求) 首先分析网页结构 查看网页源代码发现标题,图片url,福利和购买跳转链接id都在源码里有: 所以对于标题,福利,和图片url都在标签里,我们可以用xpath进行提取,而购买跳转链接id在json形式的字符串里,所以我们用正则表达式提取 代码如下: title=etree.HTML(req.text).xpath('//*[@id="list"]/ul/li[1]/a/div[4]/text()') newtitle=title[0].replace('\r\原创 2020-11-24 16:49:56 · 1278 阅读 · 2 评论