网页编码冲突解决方案--python3

网页编码格式有很多,比如UTF-8,GBK2312等,在网址页面F12键,ctrl+f搜索charset可看到该网页使用的编码格式,如CSDN为charset=”utf-8”。我们使用python获取网页内容时,经常会由于网页编码问题导致程序崩溃报错或获取到一堆二进制内容,软件的兼容性很差。有一个办法,可以通过第三方库chardet获取编码格式,再使用该编码格式解码数据可实现兼容。

1、安装chardet库
chardet是第三方库,需要先安装再使用。简单的办法是启动DOS界面,进入python安装路径下Scripts路径中(其中有pip脚本),运行”pip install chardet”,即可完成安装(可能需要先更新pip,根据提示运行命令即可);

2、导入charset、建立函数
python工程中导入charset库(”import chardet”);建立函数如下:

def get_url_context(url):
    content = urllib.request.urlopen(url) #获取网页内容
    encode = chardet.detect(content) #获取网页编码格式字典信息,字典encode中键encoding的值为编码格式
    return content.decode(encode['encoding'], 'ignore') #根据获取到的编码格式进行解码,并忽略不能识别的编码信息

以上函数的返回值即为网页解码后的内容,无论网页是哪种格式编码,都能轻松识别转换;需要注意的是解码时要加参数’ignore’,否则网页中可能会有混合编码导致程序出错。

注:本人使用的环境为win10+python3

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要修改Python 3的编码默认值为UTF-8,请按照以下步骤操作: 1. 打开终端或命令提示符窗口。 2. 输入以下命令: ``` echo "export PYTHONIOENCODING=utf-8" >> ~/.bashrc ``` 如果您使用的是Windows系统,请使用以下命令: ``` echo "set PYTHONIOENCODING=utf-8" >> %USERPROFILE%\AppData\Local\Programs\Python\Python3X\Scripts\activate.bat ``` 其中,X是您安装的Python版本号。 3. 重新启动终端或命令提示符窗口。 现在,Python 3的编码默认值已经被设置为UTF-8。 ### 回答2: 在Python3中,UTF-8是默认的编码格式。但有时候,当使用不同的编码格式时,我们需要更改默认编码。下面是如何在Python3中修改默认编码为UTF-8。 在Python3中,可以通过以下步骤修改默认编码格式: 1. 使用sys库调用setdefaultencoding方法,将默认编码设置为UTF-8。 ``` import sys sys.setdefaultencoding('UTF-8') ``` 2. 但是,Python3中没有setdefaultencoding()方法,所以我们需要使用其他方法来修改默认编码。 ``` import locale #获取本地默认编码 print(locale.getpreferredencoding()) #修改本地默认编码 locale.setlocale(locale.LC_ALL, 'en_US.UTF-8') ``` 使用该方法的好处是可以在多种操作系统中保持一致,并且可以防止可能的问题。 在修改默认编码后,我们可以通过以下方式测试它是否已成功更改: ``` import sys print(sys.getdefaultencoding()) ``` 这应该打印出UTF-8作为默认编码格式。这意味着,从现在开始,无论何时使用Python3,UTF-8都将是默认的编码格式。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值