1.get传参
- (1)汉字报错 :解释器ascii没有汉字 url汉字转码
- urllib.parse.quote safe="string.printtable"
- (2)字典传参
- urllib.parse.urlencode()
2、post:
urlib.request.openurl(url,data = "
服务器接受的数据
")
handler:
处理器的⾃定义
:
User-Agent:
- (1)模拟真实的浏览器发送请求:(1)百度批量搜索(2)检查元素(百度搜索useragent⼤全)
- (2)request.add_header(动态添加head数据)
- (3)响应头 response.header
- (4)创建request:urlib.request.Request(url)
2.IP
代理
:
- (1)免费的IP:时效性差,错误率⾼
- (2)付费的IP:贵花钱,也有失效不能⽤的
IP
分类
:
- 透明:对⽅知道我们真实的ip
- 匿名:对⽅不知道我们真实的ip,知道了你使⽤了代理
- ⾼匿:对⽅不知道我们真是的IP.也不知道我们使⽤了代理
handler: 系统的urlopen()
不⽀持代理的添加,所以我们需要自定义这个功能
#安全套接层:SSL第三方的CA数字证书(HTTPS相对于HTTP多了一个加密证书,http端口:80,https端口443)
urlopen为什么可以请求数据:handler处理器
创建对应的处理器
(handler)
- 1.代理处理器:ProxyHandler
- 2.拿着ProxyHandler创建opener:bulid_opener()
- 3.opener.open(url)就可以请求数据
注:学习资料来源于廖雪峰商业爬虫