本文链接：https://blog.csdn.net/weixin_45747642/article/details/108572267

爬虫第0课

明晰路径

1、浏览器的工作原理

浏览器的交流对象不只有人，还有【服务器】，把服务器理解为一个超级电脑，它计算和存储大量数据，在互联网中互相传输数据
在浏览器的地址栏输入网址，浏览器向服务器传达了访问某个网页的需求叫请求
服务器将数据响应给浏览器，浏览器对数据进行解析

2、爬虫的作用

爬虫可以模拟浏览器向服务器发出请求；响应后爬虫可以帮我们解析数据；爬虫可以批量提取数据；可以将数据存储到本地。

爬虫

1、requests库

可以下载网页源代码、文本、图片、音频
requests.get（）
括号里的参数是网址，把服务器响应的结果赋值给变量
2、response对象
常用属性：response.status_code检查请求是否成功 200表示服务器同意了请求
response.content把response对象转换成二进制数据

import requests
res=requests.get('https://res.pandateacher.com/2018-12-18-10-43-07.png')
pic=res.content
photo=open('adf.jpg','wb')
photo.write(pic)
photo.close()

response.text把response对象转换为字符串数据

import requests
novel=requests.get()
k=open('abd.txt','a+')
k.write(novel)
k.close()

response.encoding定义response对象的编码

res.encoding='gbk'

如果requests判断不准确需要重新定义编码

爬虫伦理

1、高频率的大型爬虫和恶意爬虫会给服务器带来极大的压力或伤害
2、robots协议——网络爬虫排除标准（‘robots exclusion protocol）用来告诉爬虫哪些页面可以抓取，哪些不可以
3、使用robots协议的场景：看到想获取的内容后，检查一下网站是否允许爬取，找到简单易懂的robots协议就够了

域名：URL是网页的地址，像房子一样精确到XX街道XX号，则域名就是房子所在的国家
cn是中国的域名，com一般是公司、或者国际域名
com : Commercial organizations,商业组织,公司，如
edu : Educational institutions,教研机构, 如PKU.edu.cn.
gov : Governmental entities,政府部门, 如beijing.gov.cn
net : Network operations and service centers,网络服务商, 如263.net.
org : Other organizations,非盈利组织。