urllib正则

urllib正则

urllib
1.get请求
设置目标url 如果请求需要添加请求头,urlopen并没有headers参数来设置请求头
data=None:默认为None,表示发起的是一个get请求,
反之,不为None,表示发起的是一个post请求
timeout: 设置请求的超时时间(s)
context=None, 一般设置为一个ssl的对象
#根据url构建一个请求对象
req = request.Request(url=url,headers=req_header)
#使用urlopen方法发起请求,获得响应结果
#从响应结果中获取相关数据

响应结果:
#获取响应的状态码
code = response.status
print(code)
#获取响应的响应头
response_headers = response.getheaders()
print(response_headers)
#获取某一个响应头参数
server = response.getheader(‘Server’)
print(server)
#获取当前请求的url地址
current_url = response.url
print(current_url)
#获取请求的reason(如果成功返回的是OK)
reason = response.reason
print(reason)

2.post请求
url目标请求
传入表单数据
数据转换

3.parse
parse.urlencode():将字典类型的参数转为url编码格式
parse.parse_qs():将url编码格式的字符串转化为字典类型
parse.quote()将中文字符转为url编码的字符
parse.unquote()将url编码的字符转换为中文字符
parse.urljoin将不完整的url参照基类url,拼接完整4
parse.urlparse():将url进行拆分
parse.urlunparse():将url的各个部分合并为一个完整的url

4.error
try:


except error.HTTPError as err:
打印错误

5.json
json.dumps():将python数据类型转换为json字符串
json.loads():将json字符串转换为python数据类型
json.dump():将python数据类型转换为json字符串,可以直接将转换的字符串保存本地
json.load():将本地文件中的json字符串转换为python数据类型
####re正则模块
单字符匹配
.:匹配除了换行符之外的任意字符
\d:匹配数据0~9 -> [0-9] -> [^\D]
\D:匹配非数字 ->[^\d]
\s:匹配空白字符 空格 \n \r
\S:匹配非空白字符
\w:匹配单词字符[a-zA-Z0-9_]
\W:匹配非单词字符[^\w]
[a-z]任意一个
[1-34-9]
^:匹配开头
$:匹配结尾

多字符匹配(贪婪匹配)
:匹配前的表达式任意次数
+:匹配+前的表达式至少一次
?:匹配?前的表达式0~1次
{n,m}:匹配{n,m}前的表达式n到m次

非贪婪匹配(尽可能少的匹配)
*?
+?
??
|:或
():分组
r:原始字符
\:转义符

#####import re
re.compile():构建正则表达式对象
re.match():从字符串起始位置匹配(第一个字符开始),匹配到结果立即返回,否则返回None,单次匹配
re.search():从起始位置在整个字符串进行匹配,匹配到结果立即返回,否则返回None,单次匹配
re.findall():匹配出字符串中所有复合正则表达式的结果,将匹配结果放入list中返回
re.finditer():匹配出字符串中所有复合正则表达式的结果,返回的是一个可迭代对象
re.split():根据正则表达式,分割字符串
re.sub():根据正则表达式替换字符串#

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值