Python 处理GBK编码转UTF-8读写乱码问题

最新推荐文章于 2024-09-22 21:54:55 发布

静妍

最新推荐文章于 2024-09-22 21:54:55 发布

阅读量3.3w

点赞数 11

分类专栏： Python 文章标签： python utf-8 编码乱码中文

本文链接：https://blog.csdn.net/xfyangle/article/details/60969522

版权

在处理前程无忧网站的爬虫过程中，遇到GBK编码的源代码，通过尝试GBK、GB18030解码仍然出现乱码。最终通过将页面内容先编码为iso-8859-1，再解码为GBK，成功解决了Python中的编码转换问题。

摘要由CSDN通过智能技术生成

今日写了个爬虫，爬取前程无忧的招聘信息

老套路，首先获取网页源代码

#-*- coding:utf-8 -*-
import requests

url = 'http://search.51job.com/jobsearch/search_result.php?'

page_req = requests.get(url)
page = page_req.text.encode('utf-8')
print page

结果，中文乱码：

浏览器查看，前程无忧源代码，是GBK编码，好吧，转GBK

非法字符，好吧，高级点，我转GB18030

尼玛，又是一种奇怪的字符，继续整，找网页帖子，大概是说先解码成GBK再转UTF_8 把 page = page_req.text.decode('gbk').encode('

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

静妍

关注关注

11
点赞
踩
44

收藏

觉得还不错? 一键收藏
9
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python：UTF-8编码转换成GBK编码

weixin_34049032的博客

02-27

1万+

2019独角兽企业重金招聘Python工程师标准>>> ...

python实现文件统一转UTF-8

qq_35499652的博客

03-08

1476

python实现文件统一转UTF-8

9 条评论您还未登录，请先登录后发表或查看评论

gbk 转 utf-8 的python示例代码

07-20

gbk 转 utf-8 的python示例代码。有时候下的电子书，到Linux上看有时候是乱码。写了个python脚本转一下。

Python文件操作

最新发布

qq_51504246的博客

09-22

717

对python操作文件进行详细讲解,并附示例和案例加深理解

python在gbk编码转换成utf-8时乱码问题

不爱读书的小孩-博客

10-28

2952

实例网站：http://www.ip138.com/ips138.asp?ip=124.24.13.241&amp;action=4 #项目爬虫，环境python-下载导入requests、lxml包 #url时是查ip位置的接口 url_1='http://www.ip138.com/ips138.asp?ip='+str(kh_ip)+'&amp;action=2' #导入...

python中gbk转utf8_Python 处理GBK编码转UTF-8读写乱码问题

weixin_40009207的博客

12-29

1236

今日写了个爬虫，爬取前程无忧的招聘信息老套路，首先获取网页源代码#-*- coding:utf-8 -*-import requestsurl = 'http://search.51job.com/jobsearch/search_result.php?'page_req = requests.get(url)page = page_req.text.encode('utf-8')print pa...

python学习之字符集：GBK，GB18030，Unicode，UTF-8

python小小实践者的博客

04-22

6443

背景最近在学习和使用python时经常会遇到一些关于字符编码问题；虽然解决了问题，但是一直没有认真梳理这方面的知识；所以，这次写这篇文章整理一下知识点；本文都是通过在网上寻找资料并自己通过代码验证，如有错误欢迎指正。环境 python 3.6 基本概念比特位二进制的0或1称为1个bit比特字节 8个bit组成1个字节byte 字符根据使用的字符编码方式不同每个字符所占用的字节数不一样；...

python中utf-8转GBK编码

a1941474711的博客

11-30

2091

#先utf-8解码#然后再gbk 编码，否则会报错： #UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 0: ordinal not in range(128) utf8Data = '编码'unicodeData = utf8Data.decode("UTF-8")gbkData = unicodeD

python解决js文件utf-8编码乱码问题(推荐)

09-20

本文将详细探讨如何使用Python语言来解决JS文件的UTF-8编码乱码问题，同时介绍相关的编码知识和处理方法。首先，我们来了解编码和乱码的基本概念。在计算机中，文本文件需要按照一定的规则编码来存储，常见的编码...

Python字符编码转码之GBK,UTF8互转

12-20

Python字符编码转换主要涉及到ASCII、Unicode以及GBK和UTF-8等编码格式，这些编码格式在处理文本数据时扮演着重要角色。在理解Python中的字符编码转换之前，我们需要了解一些基本概念。 1. ASCII编码：这是一个7位...

MYSQL数据库使用UTF-8中文编码乱码的解决办法

12-15

以下是一些解决UTF-8中文编码乱码的详细步骤和注意事项： 1. **创建数据库和数据表**： - 在创建数据库时，确保设置正确的字符集和校对规则。在PHPMyAdmin中，可以将“整理”设置为“utf8_general_ci”。用SQL语句...

python(25): 字符串编码操作utf-8,gbk

Python开发分享的博客

06-15

1万+

本节内容 1、编码介绍 2、字符编码介绍 3、总结说到python的编码，一句话总结，说多了都是泪啊，这个在以后的python的开发中绝对是一件令人头疼的事情。所以有必要要讲讲清楚一、编码介绍 1、须知：在python 2中默认编码是 ASCII，而在python 3中默认编码是 unicode unicode 分为utf-32 (占4个字节),utf-16(占两个字节)，utf-8(占1-4个字节)，所以utf-16 是最常用的unicode版本，但是在文件里存的还是utf-8，因为ut

python编码问题——“utf-8”与“gbk”

ImDePanDa的博客

05-10

6356

在进行CRNN训练中文字体OCR时，楼主碰到了令人头疼的问题，中英文编码不同。这边文章主要来讲一下“utf-8”与“gbk”的一些问题，有人或许会问不是还有一个unicode吗？看完下面一张图就知道啦。 unicode其实是一种在操作过程中存在的字符状态，一般来讲，例如python中的str都是以“unicode”编码，在进行操作时会具化成为“utf-8”与“gbk”，往往是前者居多。如上图...

Python对中文字符的处理(utf-8/ gbk/ unicode)

热门推荐

chixujohnny

06-29

17万+

现在在做分词的时候会处理大量有关中文字符的处理，经常输出乱码，老大让我暂时不考虑字符编码，但是为了看着爽不得不研究一下。分词系统：NLPIR 因为不同的编译环境默认的汉字编码可能不一样，我的环境是OSX10.11 + Pycharm + python2.7 文件第一行永远默认 # coding: utf-8 数据集我用的是“tc-corpus-train”这个是数据，百度一

gbk、utf-8，这都是啥玩意儿？ “Python编码“ 最全的教程来了

Python学习与数据挖掘

04-03

3492

人生苦短，快学Python！编码问题一直是Python学习者一个头疼的问题，经常看到的gbk、utf-8，这都是啥玩意儿？因此，今天我正好出一期教程，好好讲述一下编码的起源和发展。问题起源我们在学习Python的过程中，可能会经常遇到下方这样的编码问题。有时候我们需要选择gbk，有时候需要选择utf-8。你以为这样就完了吗？我们碰到的还有gb2312，gb18030等各种奇奇怪怪的编码。那么，编码的起源究竟是怎样的呢？我们今天就用“讲故事”的方式，带你认识一下它。黄同学给你讲故事1）烽火士兵的故事在正式讲

python调库自动检测转码GBKToUTF8

⊙-→棒棒糖ing .____`

11-22

849

原来文件只有GBK,UTF8以及ASCII 自动检测GBK转码成不带BOM的UTF-8 题外话 Python的格式经常乱tab，就很烦安装基础工具 apt-get install python3 apt-get install pip3 pip3 install chardet +./debug/gbk2u8.py +./src/ +./inc/ cd debug python gbk2u8.py gbk2u8.py 文件代码 #-*- codi

chatgpt赋能python：Python编程中的字符编码：UTF-8和GBK

a058046的博客

05-25

532

UTF-8和GBK都是字符编码，用于将文本转换为计算机可以理解的二进制格式。其中，UTF-8是一种可变长度的编码方式，可以表示Unicode字符集中的所有字符；而GBK是一种双字节的编码方式，主要用于中文字符。本文由chatgpt生成，文章没有在chatgpt生成的基础上进行任何的修改。以上只是chatgpt能力的冰山一角。作为通用的Aigc大模型，只是展现它原本的实力。对于颠覆工作方式的ChatGPT，应该选择拥抱而不是抗拒，未来属于“会用”AI的人。🧡AI职场汇报智能办公文案写作效率提升教程 🧡。

用python将GBK编码文件转为UTF-8编码文件

Bruce_wjh的博客

08-10

3万+

有的时候我们有一些网页的项目，需要用到JavaScript读取一些文本文件，用以读取数据；但各种文本文件的编码方式不尽相同，特别是带有中文字符的文件，为GBK编码，一般加载后都会出现乱码情况，故需要在加载之前将文件的编码形式转为国际兼容的编码方式UTF-8。乱码也是一个很烦的问题，博主苦寻良久，终于找到了相应的解决方案，这个python程序对单个文件或者整个文件夹下的文件进行批量转码操作，经过实例...

GBK与UTF-8的区别，如何将GBK的文本转UTF-8，将UTF-8编码的文本转GBK

slty_123的博客

04-07

2473

而UTF-8编码由于支持全球范围内的字符，具有更好的国际化兼容性，可以在各国各种支持UTF-8字符集的浏览器上显示，无需额外下载语言支持包。查看文档当前的编码方式。在Word中，可以通过点击左上角的“文件”，选择“选项”，然后向下滚动到“常规”部分，点击“Web选项”，选择“编码”来查看。将GBK编码的文本转换为UTF-8编码，或将UTF-8编码的文本转换为GBK编码，可以通过多种方法实现。如果需要将GBK编码的文档转换为UTF-8编码，点击“另存为”，跳出保存的弹框后，点击“工具”选择“Web选项”。