urllib和urllib3库

urllib

处理网络请求的python标准库

四大模块

请求模块–(request)
from urllib import request

# request对象
res = request.Request(url, headers = headers, meth = PUT, timeout = 2)
req = request.url(req)

# urlopen对象
req = request.urlopen(url)   
print(res.read().decode())

urlopen对象  无法添加请求头等参数,使用post请求只需声明参数data
解析模块–操作url

url中只能包含ascii字符,而参数中可能有汉字

from urllib import parse

单个参数为汉字
parse.quote('参数值')      汉字转ascii
parse.unqutoe('ascii')    ascii 转汉字

多个参数为汉字
dict = {'wd':'测试', 'code':'1', 'height':'一米八'}
parse.urlencode(dict)     编码
parse.parse_qs(dict)      解码    转回字典,value是一个列表格式

异常处理模块

防止个别url请求失败造成程序停止运行

except是请求失败后执行的代码

from urllib import error,request
 try:
	req = request.urlopen(url)
 except error.URLError as e:
    print(e.code)
    print(e.resaon)
    print(e.headers)
    
解析robots.txt文件(暂不介绍)
from urllib import robotparse

urllib3

import urllib3

GET请求

parsms = {}
http = urllib3.PoolManger()
res = http.request(GET, url, headers = headers, fields = params)
# 先构造http对象,再用对象进行请求



POST请求

parsms = {}
http = urllib3.PoolManger()
res = http.request(POST, url, headers = headers, fields = params)


res.data       查看响应数据
res.status     查看状态码
res.headers	   查看headers

注意:field在GET请求中变为参数显示在url中
	 field在POST请求中变为form表单
json提取
import json
json.loads(res.data.encode())

爬虫开发流程

  1. 找到目标数据

  2. 分析请求流程

  3. 构造http请求

  4. 提取数据

  5. 数据持久化

总结:

urllib3中响应返回的响应数据为二进制数据,写入为图片时不需要解码



start_url返回的响应数据,需要经过解码后,才能进行正则匹配

data = res.data.decode('utf-8'),python默认utf-8解码



re.S     无敌匹配(可以匹配反斜杠)

.*?              ?非贪婪

.*			匹配非     "\\"       数据
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值