爬虫scrapy
weixin_47707022
这个作者很懒,什么都没留下…
展开
-
基于scrapy框架抓取动态页面信息
scrapy框架实现动态页面的爬取这次目标以图片为例,首先打开网站,查看目录,查看源代码显然静态抓取标题链接是行不通的。接着打开F12/网络/xhr检查含有目录链接的信息找到数据包的请求头,以往的思路是通过网页的url作为起始地址来设计爬虫,这里直接用请求头的url当起始地址可以看出标题的信息包含在这一坨文本里,也不能直接被xpath提取,这里我先以text()的格式提取全部信息,再用re模块提取有用信息 def parse(self, response): qqq=re原创 2020-09-21 02:08:02 · 781 阅读 · 1 评论 -
爬虫 scrapy框架实现抓取小姐姐图片
爬虫 scrapy框架实现抓取小姐姐图片常见方法有:1,js逆向 2,模拟浏览器(效率极低)这里我用是跨域抓取图片,话不多说首先进入图片列表页打开控制台![在这里插入图片描述注意这里的链接是残缺的,待会需用代码缝合域名,这里先用xpath得到图片页面链接response.xpath('//li//p/a/@href')得到的链接只是当前页面的,这里移动到页面的最下方同样用xpath得到“下一页”链接运用回调函数实现翻页,这个链接同样也需要拼接response.xpath('//div[原创 2020-09-09 20:17:30 · 286 阅读 · 0 评论