python爬虫简易使用
一、一个简易的爬虫的逻辑
这是一个仿照别人的demo,用的是别人的账号和密码,话不多说,上代码和逻辑
先讲一下逻辑,方便看代码
1.爬取一个不需要登录的网页,如京东,百度等可以直接加入查询东西,而不是人人网这些需要登录才能得到数据的网页,就可以直接通过模拟网页请求的方式获取到所需的数据
2.爬取一个需要登录的网页,就需要获取到登录的cookie值才能保证你能获取到登录后的数据,其他操作与无登录的操作一样
下面我们讲一下登录的爬取,学会了这个,就学会了不需要登录的爬取
二、代码上手
1.爬取的步骤
1.先获取url的地址,也就是你所要针对的网页,接下来的demo将以人人网为例
人人网的登录url:http://www.renren.com/SysHome.do
现提供的账号和密码是别人的,仅供学习
email :18322295195 password:oaix51607991
登录
登录部分的材料有了,被问我为啥只要账号和密码,请看图
这里的数据表示需要请求的数据,之所以只用账号和密码,因为吧,简单,其次,它是post请求,为啥是post请求呢,请看图
所以,我们可以得到登录的爬虫操作,接下来就是代码了
url = 'http://www.renren.com/SysHome.do'
data = {
# 参数使用正确的用户名密码
"email": username,
"password": password
}
# 把数据进行编码
data = parse.urlencode(data)
# 创建一个请求对象
req = request.Request(url,data=data.encode('utf-8'))
# 使用opener发起请求
rsp = opener.open(req)
这里用opener的原因是要获取cooike值,不然之后的页面没有cooike值,相当于没登陆, 以上代码就可以进一步获取cookie了,cookie在哪呢?cookie在opener里
使用cooike获取登陆后的网页信息
1.