1.初识爬虫

本文介绍了爬虫的基本工作原理,包括获取数据、解析数据、提取数据和储存数据四个步骤。详细讲解了Python的requests库,如何使用requests.get()发送HTTP请求,以及Response对象的status_code、content、text和encoding等属性。此外,文章还讨论了爬虫伦理,提到了Robots协议的重要性和查看方式。
摘要由CSDN通过智能技术生成

爬虫工作原理

在这里插入图片描述

爬虫的四个步骤

1、获取数据。爬虫程序会根据我们提供的网址,向服务器发起请求,然后返回数据。
2、解析数据。爬虫程序会把服务器返回的数据解析成我们能读懂的格式。
3、提取数据。爬虫程序再从中提取出我们需要的数据。
4、储存数据。爬虫程序把这些有用的数据保存起来,便于你日后的使用和分析。
在这里插入图片描述

获取数据

requests

在电脑上安装,方法是:在Mac电脑里打开终端软件(terminal),输入pip3 install requests,然后点击enter即可;Windows电脑里叫命令提示符(cmd),输入pip install requests即可。

requests.get()

import requests
#引入requests库

res = requests.get(‘URL’)
#requests.get是在调用requests库中的get()方法,它向服务器发送了一个请求,括号里的参数URL是你需要的数据所在的网址,然后服务器对请求作出了响应。
#我们把这个响应返回的结果赋值在变量res上。

import requests
res = requests.get(‘https://res.pandateacher.com/2018-12-18-10-43-07.png’)
print(type(res))
#打印变量res的数据类型

终端显示:requests.models.Response
这代表着:res是一个对象,属于requests.models.Response类。

Response对象的常用属性

1、response.status_code 检查请求是否成功
2、response.content 把response对象转换为二进制数据
3、response.text 把response对象转换为字符串数据
4、response.encoding 定义response对象的编码

1、response.status_code
import requests
res = requests.get(‘https://res.pandateacher.com/2018-12-18-10-43-07.png’)
print(res.status_code)
#打印变量res的响应状态码,以检查请求是否成功**终端结果显示了200,这个数字代表服务器同意了请求,并返回了数据给我们。**
终端结果显示了200,这个数字代表服务器同意了请求,并返回了数据给我们。
除了200,我们还可能收到其他的状态码。下面有一个表格,供你参考不同的状态码代表什么,但不需要记住它们,在遇到问题的时候查询就好。
在这里插入图片描述
2、response.content
它能把Response对象的内容以二进制数据的形式返回,适用于图片、音频、视频的下载
例如:
import requests
res = requests.get(‘https://res.pandateacher.com/2018-12-18-10-43-07.png’)
#发出请求,并把返回的结果放在变量res中
pic=res.content
#把Reponse对象的内容以二进制数据的形式返回
photo = open(‘ppt.jpg’,‘wb’)
#新建了一个文件ppt.jpg,这里的文件没加路径,它会被保存在程序运行的当前目录下。
#图片内容需要以二进制wb读写。
photo.write(pic)
#获取pic的二进制内容
photo.close()
#关闭文件

3、response.text
把Response对象的内容以字符串的形式返回,适用于文字、网页源代码的下载
例如
(1)import requests
#引用requests库
res = requests.get(‘https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md’)
#下载《三国演义》第一回,我们得到一个对象,它被命名为res
novel=res.text
#把Response对象的内容以字符串的形式返回
print(novel[:800])

(2)import requests
#引用requests库
res = requests.get(‘https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md’)
#下载《三国演义》第一回,我们得到一个对象,它被命名为res
novel=res.text
#把Response对象的内容以字符串的形式返回
k = open(’《三国演义》.txt’,‘a+’)
#创建一个名为《三国演义》的txt文档,指针放在文件末尾,追加内容
k.write(novel)
#写进文件中
k.close()
#关闭文档

4、response.encoding
它能帮我们定义Response对象的编码。

在什么时候用res.encoding?

首先,目标数据本身是什么编码是未知的。用requests.get()发送请求后,我们会取得一个Response对象,其中,requests库会对数据的编码类型做出自己的判断。但是!这个判断有可能准确,也可能不准确。
如果它判断准确的话,我们打印出来的response.text的内容就是正常的、没有乱码的,那就用不到res.encoding;如果判断不准确,就会出现一堆乱码,那我们就可以去查看目标数据的编码,然后再用res.encoding把编码定义成和目标数据一致的类型即可。
总的来说,就是遇上文本的乱码问题,才考虑用res.encoding。

爬虫伦理

Robots协议是互联网爬虫的一项公认的道德规范,它的全称是“网络爬虫排除标准”(Robots exclusion protocol),这个协议用来告诉爬虫,哪些页面是可以抓取的,哪些不可以。

如何查看网站的robots协议?在网站的域名后加上/robots.txt就可以了。

截取了一部分淘宝的robots协议,可以看到淘宝对百度和谷歌这两个爬虫的访问规定,以及对其它爬虫的规定。

在这里插入图片描述

协议里最常出现的英文是Allow和Disallow,Allow代表可以被访问,Disallow代表禁止被访问。而且有趣的是,淘宝限制了百度对产品页面的爬虫,却允许谷歌访问。
当你在百度搜索“淘宝网”时,会看到下图的这两行小字
在这里插入图片描述

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值