Python爬虫页面解析基础:url编码本质

url编码本质

其实url本质就是将中文字符串进行utf8编码,然后得到编码后的对象转换字符串去掉开头的b'以及末尾的',然后再将\x转换成%,再将里面内容x变成e最后将字符串小写变成大写

举例

#拿我举例

#第一步进行编码
a= '我'
a= a.encode('utf8')

#第二步进行转字符串去除头尾
a = str(a).strip("b'") #strip里面的值不是匹配而是有无

#第三步将\转换成%
a = a.replace('\\','%')

#第四部将x写变成e
a = a.replace('x','e')

#第五步将小写变成大写
a = a.upper()

#一步到位
a=str(a.encode('utf8')).strip("b'").replace('\\x','%').replace('x','e').upper()

#结果%E6%88%91

#不行你可以访问 https://www.baidu.com/s?wd=%E6%88%91,https://www.baidu.com/s?wd=我
#看看是不是一样

推荐Python大牛在线分享技术 扣qun:855408893

领域:web开发,爬虫,数据分析,数据挖掘,人工智能

python中调用库进行url编码和解码

from urllib import parse

编码

str1 = '我'
str2 = parse.quote(str1)
print(str2)
#%E6%88%91

解码

str1 = '%E6%88%91'
str2 = parse.unquote(str1)
print(str2)
#我
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值