python爬虫简易使用(该博客仅供学习,谢谢)

一、一个简易的爬虫的逻辑

这是一个仿照别人的demo,用的是别人的账号和密码,话不多说,上代码和逻辑
先讲一下逻辑,方便看代码

1.爬取一个不需要登录的网页,如京东,百度等可以直接加入查询东西,而不是人人网这些需要登录才能得到数据的网页,就可以直接通过模拟网页请求的方式获取到所需的数据
2.爬取一个需要登录的网页,就需要获取到登录的cookie值才能保证你能获取到登录后的数据,其他操作与无登录的操作一样

下面我们讲一下登录的爬取,学会了这个,就学会了不需要登录的爬取

二、代码上手

1.爬取的步骤

1.先获取url的地址,也就是你所要针对的网页,接下来的demo将以人人网为例
人人网的登录url:http://www.renren.com/SysHome.do
现提供的账号和密码是别人的,仅供学习
email :18322295195 password:oaix51607991

登录

登录部分的材料有了,被问我为啥只要账号和密码,请看图
在这里插入图片描述
这里的数据表示需要请求的数据,之所以只用账号和密码,因为吧,简单,其次,它是post请求,为啥是post请求呢,请看图
在这里插入图片描述
所以,我们可以得到登录的爬虫操作,接下来就是代码了

	url = 'http://www.renren.com/SysHome.do'
    data = {
   
        # 参数使用正确的用户名密码
        "email": username,
        "password": password
    }
    # 把数据进行编码
    data = parse.urlencode(data)
    # 创建一个请求对象
    req = request.Request(url,data=data.encode('utf-8'))
    # 使用opener发起请求
    rsp = opener.open(req)

这里用opener的原因是要获取cooike值,不然之后的页面没有cooike值,相当于没登陆, 以上代码就可以进一步获取cookie了,cookie在哪呢?cookie在opener里

使用cooike获取登陆后的网页信息

1.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值