python爬虫简易使用(该博客仅供学习,谢谢)

最新推荐文章于 2024-07-12 16:16:27 发布

观棋老人

最新推荐文章于 2024-07-12 16:16:27 发布

阅读量213

点赞数

分类专栏： python 爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_44129779/article/details/103201209

版权

python爬虫简易使用

一、一个简易的爬虫的逻辑

一、一个简易的爬虫的逻辑

这是一个仿照别人的demo，用的是别人的账号和密码，话不多说，上代码和逻辑
先讲一下逻辑，方便看代码

1.爬取一个不需要登录的网页，如京东，百度等可以直接加入查询东西，而不是人人网这些需要登录才能得到数据的网页，就可以直接通过模拟网页请求的方式获取到所需的数据

2.爬取一个需要登录的网页，就需要获取到登录的cookie值才能保证你能获取到登录后的数据，其他操作与无登录的操作一样

下面我们讲一下登录的爬取，学会了这个，就学会了不需要登录的爬取

二、代码上手

1.爬取的步骤

1.先获取url的地址，也就是你所要针对的网页，接下来的demo将以人人网为例
人人网的登录url：http://www.renren.com/SysHome.do
现提供的账号和密码是别人的，仅供学习
email :18322295195 password:oaix51607991

登录部分的材料有了，被问我为啥只要账号和密码，请看图
在这里插入图片描述
这里的数据表示需要请求的数据，之所以只用账号和密码，因为吧，简单，其次，它是post请求，为啥是post请求呢，请看图

所以，我们可以得到登录的爬虫操作，接下来就是代码了

	url = 'http://www.renren.com/SysHome.do'
    data = {
   
        # 参数使用正确的用户名密码
        "email": username,
        "password": password
    }
    # 把数据进行编码
    data = parse.urlencode(data)
    # 创建一个请求对象
    req = request.Request(url,data=data.encode('utf-8'))
    # 使用opener发起请求
    rsp = opener.open(req)

这里用opener的原因是要获取cooike值，不然之后的页面没有cooike值，相当于没登陆，以上代码就可以进一步获取cookie了，cookie在哪呢？cookie在opener里

使用cooike获取登陆后的网页信息

最低0.47元/天解锁文章

观棋老人

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫简易使用(该博客仅供学习,谢谢)

python爬虫简易使用一、一个简易的爬虫的逻辑1.爬取一个不需要登录的网页，如京东，百度等可以直接加入查询东西，而不是人人网这些需要登录才能得到数据的网页，就可以直接通过模拟网页请求的方式获取到所需的数据2.爬取一个需要登录的网页，就需要获取到登录的cookie值才能保证你能获取到登录后的数据，其他操作与无登录的操作一样二、代码上手1.爬取的步骤登录使用cooike获取登陆后的网页信息一、一个...
复制链接

扫一扫