爬虫第0课

明晰路径

1、浏览器的工作原理

  • 浏览器的交流对象不只有人,还有【服务器】,把服务器理解为一个超级电脑,它计算和存储大量数据,在互联网中互相传输数据
  • 在浏览器的地址栏输入网址,浏览器向服务器传达了访问某个网页的需求叫请求
  • 服务器将数据响应给浏览器,浏览器对数据进行解析

2、爬虫的作用

  • 爬虫可以模拟浏览器向服务器发出请求;响应后爬虫可以帮我们解析数据;爬虫可以批量提取数据;可以将数据存储到本地。

爬虫

1、requests库

  • 可以下载网页源代码、文本、图片、音频
  • requests.get()
  • 括号里的参数是网址,把服务器响应的结果赋值给变量
    2、response对象
  • 常用属性:response.status_code检查请求是否成功 200表示服务器同意了请求
    在这里插入图片描述
  • response.content把response对象转换成二进制数据
import requests
res=requests.get('https://res.pandateacher.com/2018-12-18-10-43-07.png')
pic=res.content
photo=open('adf.jpg','wb')
photo.write(pic)
photo.close()
  • response.text把response对象转换为字符串数据
import requests
novel=requests.get()
k=open('abd.txt','a+')
k.write(novel)
k.close()
  • response.encoding定义response对象的编码
res.encoding='gbk'

如果requests判断不准确需要重新定义编码

爬虫伦理

1、高频率的大型爬虫和恶意爬虫会给服务器带来极大的压力或伤害
2、robots协议——网络爬虫排除标准(‘robots exclusion protocol)用来告诉爬虫哪些页面可以抓取,哪些不可以
3、使用robots协议的场景:看到想获取的内容后,检查一下网站是否允许爬取,找到简单易懂的robots协议就够了

  • 域名:URL是网页的地址,像房子一样精确到XX街道XX号,则域名就是房子所在的国家
  • cn是中国的域名,com一般是公司、或者国际域名
  • com : Commercial organizations,商业组织,公司,如
  • edu : Educational institutions,教研机构, 如PKU.edu.cn.
  • gov : Governmental entities,政府部门, 如beijing.gov.cn
  • net : Network operations and service centers,网络服务商, 如263.net.
  • org : Other organizations,非盈利组织。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值