2021-10-24Python爬虫学习

Python 爬虫学习(1)

1.什么是爬虫
当我们打开网页时,浏览器会做许多工作来让你看到这个网页
爬虫的工作也和浏览器差不多
我们先来了解一下浏览器的工作

当我们想将网页中的图片下载下来时,只需要右键单击下载即可,但是在浏览器眼里他是这样的

我:打开xxx网页
我把xxx给你:浏览器
我:找到这张图,复制下载(取数据)
我:将数据黏贴到本地(存数据)
这么看只有用户和浏览器两方但实际还有第三方服务器,浏览器会先向服务器请求数据,服务器收到请求后将数据发送给浏览器

当我们在浏览器中输入一个网址(url),浏览器会向储存这个网址的服务器获取该网址的数据,这个过程叫请求(request)
当服务器收到请求后,将对应网址数据发送给浏览器,这个过程叫响应(response)

当浏览器收到数据后会解析数据,让数据变成人能看懂的网页
当我们浏览网页时我们会筛选数据,从中找出我们需要的内容

这几个步骤爬虫都能为我们效劳

Requeste库
我使用的是pycharm,首先安装request库

打开终端输入pip install requests即可
在这里插入图片描述

使用方法
在这里插入图片描述
在这里插入图片描述

输出结果response 200说明连接成功

接下来我们找一张图片进行测试

以这张图片为例,复制url
在这里插入图片描述图片来源为该网站https://pixabay.com/zh/

import requests

#在使用前需要先通过 import 来引入 requests 库
res = requests.get('https://cdn.pixabay.com/photo/2019/06/08/21/32/castle-4261029_960_720.jpg')
#我们通过调用requests库中的get()方法来获取数据,这个方法需要参数,参数就是你需要请求的网址
print(res)
pic=res.content
#把Reponse对象的内容以二进制数据的形式返回
photo = open('logo.jpg','wb')
#新建了一个文件logo.png,这里的文件没加路径,它会被保存在程序运行的当前目录下。
#图片内容需要以二进制wb读写。你在学习open()函数时接触过它。
photo.write(pic)
#获取pic的二进制内容
photo.close()
#关闭文件

运行结果如下
在这里插入图片描述成功下载

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值