爬取图片时遇到中文url

python版本:3.6.5
pycharm版本:2018.3

我经常在爬取图片时遇到太有中文的url,有一个非常简单的方法解决。
1:第一步先导入两个包在这里插入图片描述
一个正则re,另一个则是爬虫辅助用的包(个人认为)
2:urllib.parse包
在这里插入图片描述
quote是编码,encoding参数可带编码格式,如果不加,默认是当前环境的编码格式,返回结果是
在这里插入图片描述
把后面的中文“已缩减”变成编码的格式,因为编码也会把":“也改变了,所有后面必须用sub函数把”:"换回来,否则图片url不能下载。
sub的结果返回,sub函数的用法是将搜寻到的参数相等时替换,第一个参数是你想搜寻的,第二个参数是你想把搜寻到的字符替换成它的参数。
在这里插入图片描述
在这里插入图片描述
3:urlparse方法:将url分为6个部分,返回一个包含6个字符串项目的元组:协议、位置、路径、参数、查询、片段。

在这里插入图片描述
4:有编码自然有解码,将已编码的字符解码。返回结果
在这里插入图片描述
也可以添加解码格式,默认是utf-8
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值