爬虫第二天

1.get传参

  • (1)汉字报错 :解释器ascii没有汉字 url汉字转码
  • urllib.parse.quote safe="string.printtable"
  • (2)字典传参
  • urllib.parse.urlencode()

2、post:

urlib.request.openurl(url,data = " 服务器接受的数据 ")
handler: 处理器的⾃定义 :
User-Agent:
  • (1)模拟真实的浏览器发送请求:(1)百度批量搜索(2)检查元素(百度搜索useragent⼤全)
  • (2)request.add_header(动态添加head数据)
  • (3)响应头 response.header
  • (4)创建request:urlib.request.Request(url)
2.IP 代理 :
  • (1)免费的IP:时效性差,错误率⾼
  • (2)付费的IP:贵花钱,也有失效不能⽤的
IP 分类 :
  • 透明:对⽅知道我们真实的ip
  • 匿名:对⽅不知道我们真实的ip,知道了你使⽤了代理
  • ⾼匿:对⽅不知道我们真是的IP.也不知道我们使⽤了代理
handler: 系统的urlopen() 不⽀持代理的添加,所以我们需要自定义这个功能
#安全套接层:SSL第三方的CA数字证书(HTTPS相对于HTTP多了一个加密证书,http端口:80,https端口443)
urlopen为什么可以请求数据:handler处理器
创建对应的处理器 (handler)
  • 1.代理处理器:ProxyHandler
  • 2.拿着ProxyHandler创建opener:bulid_opener()
  • 3.opener.open(url)就可以请求数据

注:学习资料来源于廖雪峰商业爬虫

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值