明晰路径
1、浏览器的工作原理
- 浏览器的交流对象不只有人,还有【服务器】,把服务器理解为一个超级电脑,它计算和存储大量数据,在互联网中互相传输数据
- 在浏览器的地址栏输入网址,浏览器向服务器传达了访问某个网页的需求叫请求
- 服务器将数据响应给浏览器,浏览器对数据进行解析
2、爬虫的作用
- 爬虫可以模拟浏览器向服务器发出请求;响应后爬虫可以帮我们解析数据;爬虫可以批量提取数据;可以将数据存储到本地。
爬虫
1、requests库
- 可以下载网页源代码、文本、图片、音频
- requests.get()
- 括号里的参数是网址,把服务器响应的结果赋值给变量
2、response对象 - 常用属性:response.status_code检查请求是否成功 200表示服务器同意了请求
- response.content把response对象转换成二进制数据
import requests
res=requests.get('https://res.pandateacher.com/2018-12-18-10-43-07.png')
pic=res.content
photo=open('adf.jpg','wb')
photo.write(pic)
photo.close()
- response.text把response对象转换为字符串数据
import requests
novel=requests.get()
k=open('abd.txt','a+')
k.write(novel)
k.close()
- response.encoding定义response对象的编码
res.encoding='gbk'
如果requests判断不准确需要重新定义编码
爬虫伦理
1、高频率的大型爬虫和恶意爬虫会给服务器带来极大的压力或伤害
2、robots协议——网络爬虫排除标准(‘robots exclusion protocol)用来告诉爬虫哪些页面可以抓取,哪些不可以
3、使用robots协议的场景:看到想获取的内容后,检查一下网站是否允许爬取,找到简单易懂的robots协议就够了
- 域名:URL是网页的地址,像房子一样精确到XX街道XX号,则域名就是房子所在的国家
- cn是中国的域名,com一般是公司、或者国际域名
- com : Commercial organizations,商业组织,公司,如
- edu : Educational institutions,教研机构, 如PKU.edu.cn.
- gov : Governmental entities,政府部门, 如beijing.gov.cn
- net : Network operations and service centers,网络服务商, 如263.net.
- org : Other organizations,非盈利组织。