爬虫
一朋
迷雾里寻不见人,那就将自己化作灯塔。
--这是一个乐意分享技术的程序猿
展开
-
selenium淘宝登录和滑块破解最新可用
本文主要讲解使用selenium模拟登录淘宝爬取数据并解决滑块的一个案例,这里提供两个思路,一个是怎么登录淘宝,一个是怎么解决滑块。1.登录淘宝:使用selenium打开淘宝指定页面,会先跳转到淘宝的登陆页面,要求登录,第一次正常登录即可,随后使用browser.get_cookies()得到cookies值并保存下来,等到之后登录的时候先get一次网址,添加cookies,再get一次目标网址,就能够成功进去了。 代码如下: 此处注意,获取到的cookies的是列表嵌套字典的格式,而ad原创 2020-12-06 19:10:51 · 9676 阅读 · 28 评论 -
scrapy框架大致流程介绍
scrapy框架介绍:scrapy框架是以python作为基础语言,实现网页数据的抓取,提取信息,保存的一个应用框架,可应用于数据提取、数据挖掘、信息处理和存储数据等一系列的程序中。基本流程:新建项目 明确目标 制作爬虫模块并开始爬取 提取目标数据 存储内容流程架构图(注:下列绿线表示数据流向):对于上述 scrapy 框架图解的基本工作流程,可以简单的理解为:Spiders(爬虫)将需要发送请求的url(Requests)经ScrapyEngine(引擎)提交给 Sche原创 2020-11-01 18:04:22 · 1092 阅读 · 0 评论 -
cookie与session
新手在爬虫中,使用requests模块或者其他模块访问目标页面,或者目标网页需要登录后才能获取网页源码的情况下,发现怎么样都获取不到网页源码,相信这种情况很让人头疼吧!原因是我们每次访问页面的时候,浏览器都会产生关于我们相关的信息,分别为session与cookies,如果浏览器发现我们没有这些信息,就不会让我们获取到目标页面的源码,下面介绍一下session与cookies:session:通过在服务器端记录的信息,作用是用来确定用户的身份cookies:通过在客户端记录的信息,作用也是用来确原创 2020-10-18 23:45:22 · 127 阅读 · 0 评论 -
爬虫中requests模块和urllib模块的异同点
相同点:requests模块和urllib模块都能实现对网页的请求,并获取网页数据异同点:requests模块:使用的是对应请求方式的属性/方法,可对性高,方便理解。 对网页编码的方式有多种 能设置请求头的参数 能解析带有中文的网址注:其中content拿到的数据为二进制,需要转化为utf-8才能正常显示,若使用text,则原网页编码格式是什么,拿到的编码格式就是什么urllib模块:对网页申请访问的方法为urlopen(),且需要进行编码处理才能显示正常网页数据 请求原创 2020-10-07 11:24:25 · 2299 阅读 · 0 评论