1.初识爬虫

果冻lyd

于 2021-01-03 17:20:21 发布

阅读量203

点赞数 2

分类专栏：爬虫原理及获取数据文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_50527482/article/details/112140826

版权

爬虫原理及获取数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文介绍了爬虫的基本工作原理，包括获取数据、解析数据、提取数据和储存数据四个步骤。详细讲解了Python的requests库，如何使用requests.get()发送HTTP请求，以及Response对象的status_code、content、text和encoding等属性。此外，文章还讨论了爬虫伦理，提到了Robots协议的重要性和查看方式。

摘要由CSDN通过智能技术生成

初识爬虫

爬虫工作原理
爬虫的四个步骤
获取数据
- requests
requests.get()
- Response对象的常用属性
爬虫伦理
- 截取了一部分淘宝的robots协议，可以看到淘宝对百度和谷歌这两个爬虫的访问规定，以及对其它爬虫的规定。

爬虫工作原理

在这里插入图片描述

爬虫的四个步骤

1、获取数据。爬虫程序会根据我们提供的网址，向服务器发起请求，然后返回数据。
2、解析数据。爬虫程序会把服务器返回的数据解析成我们能读懂的格式。
3、提取数据。爬虫程序再从中提取出我们需要的数据。
4、储存数据。爬虫程序把这些有用的数据保存起来，便于你日后的使用和分析。
在这里插入图片描述

获取数据

requests

在电脑上安装，方法是：在Mac电脑里打开终端软件（terminal），输入pip3 install requests，然后点击enter即可；Windows电脑里叫命令提示符（cmd），输入pip install requests即可。

requests.get()

import requests
#引入requests库

res = requests.get(‘URL’)
#requests.get是在调用requests库中的get()方法，它向服务器发送了一个请求，括号里的参数URL是你需要的数据所在的网址，然后服务器对请求作出了响应。
#我们把这个响应返回的结果赋值在变量res上。

import requests
res = requests.get(‘https://res.pandateacher.com/2018-12-18-10-43-07.png’)
print(type(res))
#打印变量res的数据类型

终端显示：requests.models.Response
这代表着：res是一个对象，属于requests.models.Response类。

Response对象的常用属性

1、response.status_code 检查请求是否成功
2、response.content 把response对象转换为二进制数据
3、response.text 把response对象转换为字符串数据
4、response.encoding 定义response对象的编码

1、response.status_code
import requests
res = requests.get(‘https://res.pandateacher.com/2018-12-18-10-43-07.png’)
print(res.status_code)
#打印变量res的响应状态码，以检查请求是否成功 **终端结果显示了200，这个数字代表服务器同意了请求，并返回了数据给我们。**
终端结果显示了200，这个数字代表服务器同意了请求，并返回了数据给我们。
除了200，我们还可能收到其他的状态码。下面有一个表格，供你参考不同的状态码代表什么，但不需要记住它们，在遇到问题的时候查询就好。
在这里插入图片描述
2、response.content
它能把Response对象的内容以二进制数据的形式返回，适用于图片、音频、视频的下载
例如：
import requests
res = requests.get(‘https://res.pandateacher.com/2018-12-18-10-43-07.png’)
#发出请求，并把返回的结果放在变量res中
pic=res.content
#把Reponse对象的内容以二进制数据的形式返回
photo = open(‘ppt.jpg’,‘wb’)
#新建了一个文件ppt.jpg，这里的文件没加路径，它会被保存在程序运行的当前目录下。
#图片内容需要以二进制wb读写。
photo.write(pic)
#获取pic的二进制内容
photo.close()
#关闭文件

3、response.text
把Response对象的内容以字符串的形式返回，适用于文字、网页源代码的下载
例如
（1）import requests
#引用requests库
res = requests.get(‘https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md’)
#下载《三国演义》第一回，我们得到一个对象，它被命名为res
novel=res.text
#把Response对象的内容以字符串的形式返回
print(novel[:800])

（2）import requests
#引用requests库
res = requests.get(‘https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md’)
#下载《三国演义》第一回，我们得到一个对象，它被命名为res
novel=res.text
#把Response对象的内容以字符串的形式返回
k = open(’《三国演义》.txt’,‘a+’)
#创建一个名为《三国演义》的txt文档，指针放在文件末尾，追加内容
k.write(novel)
#写进文件中
k.close()
#关闭文档

4、response.encoding
它能帮我们定义Response对象的编码。

在什么时候用res.encoding？

首先，目标数据本身是什么编码是未知的。用requests.get()发送请求后，我们会取得一个Response对象，其中，requests库会对数据的编码类型做出自己的判断。但是！这个判断有可能准确，也可能不准确。
如果它判断准确的话，我们打印出来的response.text的内容就是正常的、没有乱码的，那就用不到res.encoding；如果判断不准确，就会出现一堆乱码，那我们就可以去查看目标数据的编码，然后再用res.encoding把编码定义成和目标数据一致的类型即可。
总的来说，就是遇上文本的乱码问题，才考虑用res.encoding。

爬虫伦理

Robots协议是互联网爬虫的一项公认的道德规范，它的全称是“网络爬虫排除标准”（Robots exclusion protocol），这个协议用来告诉爬虫，哪些页面是可以抓取的，哪些不可以。

如何查看网站的robots协议？在网站的域名后加上/robots.txt就可以了。

截取了一部分淘宝的robots协议，可以看到淘宝对百度和谷歌这两个爬虫的访问规定，以及对其它爬虫的规定。

在这里插入图片描述

协议里最常出现的英文是Allow和Disallow，Allow代表可以被访问，Disallow代表禁止被访问。而且有趣的是，淘宝限制了百度对产品页面的爬虫，却允许谷歌访问。
当你在百度搜索“淘宝网”时，会看到下图的这两行小字
在这里插入图片描述

果冻lyd

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
1.初识爬虫

初识爬虫爬虫工作原理爬虫的四个步骤获取数据requestsrequests.get()Response对象的常用属性爬虫伦理截取了一部分淘宝的robots协议，可以看到淘宝对百度和谷歌这两个爬虫的访问规定，以及对其它爬虫的规定。欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式
复制链接

扫一扫