新手在爬虫中,使用requests模块或者其他模块访问目标页面,或者目标网页需要登录后才能获取网页源码的情况下,发现怎么样都获取不到网页源码,相信这种情况很让人头疼吧!
原因是我们每次访问页面的时候,浏览器都会产生关于我们相关的信息,分别为session与cookies,如果浏览器发现我们没有这些信息,就不会让我们获取到目标页面的源码,下面介绍一下session与cookies:
session:通过在服务器端记录的信息,作用是用来确定用户的身份
cookies:通过在客户端记录的信息,作用也是用来确定用户身份。
下面通过访问某个需要登录账号才能获取到网页源码的案例:
注:这里是需要一个可用账户的(已打码)
post请求的参数可以从已登录的网页中的form表单中获取
通过以上操作便可以拿到目标页面的源码了
以上仅为本人的一点理解,不足之处欢迎指正!