Python爬虫笔记——爬虫基础第一课

爬虫的四个步骤

0.获取数据——爬虫程序会根据我们提供的网址,向服务器发起请求,然后返回数据。
1.解析数据——爬虫程序会把服务器返回的数据解析成我们能读懂的格式。
2.提取数据——爬虫程序再从中提取出我们需要的数据。
3.储存数据——爬虫程序把这些有用的数据保存起来。

获取数据——requests库

requests库可以帮我们下载网页源代码、文本、图片甚至是音频。
“下载”本质上是向服务器发送请求并得到响应。
函数:requests.get()
requests.get(‘URL’)
#requests.get是在调用requests库中的get()方法,它向服务器发送一个请求,括号里的参数是你需要的数据所在的网址,然后服务器对请求作出响应。我们把这个响应返回的结果赋值在变量res上。
#res = requests.get(‘URL’)。res是一个对象,属于requests.models.response类。

Response对象的常用属性

         属性                                               作用 

response.status_code 检查请求是否成功
response.content 把response对象转换为二进制数据
response.text 把response对象转换为字符串数据
response.encoding 定义response对象的编码

1.response.status_code
print(res.status_code)
#打印变量res的响应状态码,以检查请求是否成功。
#print(变量.status_code)是用来检查请求是否正确响应,如果终端结果显示了200,这个数字代表服务器同意了请求,并返回了数据给我们。

常见响应状态码解释
响应状态码 说明
1xx 请求收到
2xx 请求成功
3xx 重定向
4xx 客户端错误
5xx 服务器端错误
100 继续提出请求
200 成功
305 应使用代理访问
403 禁止访问
503 服务不可用

2.response.content
这个属性能把response对象的内容以二进制数据的形式返回,使用于图片、音频、视频的下载。
eg:

import requests
res = requests.get('https://n1-q.mafengwo.net/s11/M00/FD/32/wKgBEFt70WSAGDenAAQ1h-DCqHc20.jpeg?imageView2%2F2%2Fw%2F680%2Fq%2F90')
#发出请求,并把返回的结果放在变量res中
pic=res.content
#把Reponse对象的内容以二进制数据的形式返回
#把图片、音频、视频转换成二进制的字节进行传输和存储
photo = open('C:/Users/ASUS/Desktop/photo.jpg','wb')
#新建了一个文件photo.jpg,这里的文件加了存储路径,它会被保存在我所设置的桌面上。(如果文件没加路径,它会被保存在程序运行的当前目录下。)
#图片内容需要以二进制wb读写(在学习open()函数时会有接触)
photo.write(pic) 
#获取pic的二进制内容
photo.close()
#关闭文件

open()函数中r、rb、w、wb、a、ab
“r”—— 以读方式打开,只能读文件 ,如果文件不存在,会发生异常。
“w”——以写方式打开,只能写文件, 如果文件不存在,创建该文件并写入;如果文件已存在,先清空,再打开文件从头写入。
“a”—— 打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入。
“rb”——以二进制读方式打开,只能读文件 , 如果文件不存在,会发生异常
“wb”——以二进制写方式打开,只能写文件, 如果文件不存在,创建该文件并写入;如果文件已存在,先清空,再打开文件并写入。
“ab”——以二进制格式打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入。
“r+”——打开一个文件用于读写。文件指针将会放在文件的开头。
“rb+”——以二进制格式打开一个文件用于读写。文件指针将会放在文件的开头。一般用于**非文本文件图片等。
“w+”——打开一个文件用于读写。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件。
“wb+”——以二进制格式打开一个文件用于读写。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件。一般用于非文本文件如图片等。
“a+”——打开一个文件用于读写。如果该文件已存在,文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在,创建新文件用于追加。
“ab+”——以二进制格式打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。如果该文件不存在,创建新文件用于追加。

3.response.text
这个属性可以把Response对象的内容以字符串的形式返回,适用于文字、网页源代码的下载。
eg:

import requests
#引用requests库
res=requests.get('URL')
novel=res.text
#把Response对象的内容以字符串的形式返回
k = open('《xxxx》.txt','w')
#创建一个名为《xxxx》的txt文档,并写入
k.write(novel)
#写进文件中     
k.close()
#关闭文档

4.response.encoding
res.encoding=‘gbk’ #定义Response对象的编码为gbk
目标数据本身是什么编码是未知的。用requests.get()发送请求后,我们会取得一个Response对象,其中,requests库会对数据的编码类型做出自己的判断。但是!这个判断有可能准确,也可能不准确。
如果它判断准确的话,我们打印出来的response.text的内容就是正常的、没有乱码的,那就用不到res.encoding;如果判断不准确,就会出现一堆乱码,那我们就可以去查看目标数据的编码,然后再用res.encoding把编码定义成和目标数据一致的类型即可。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值