Python中unicode和unicodeescape

最新推荐文章于 2023-12-06 19:27:22 发布

ElienC

最新推荐文章于 2023-12-06 19:27:22 发布

阅读量745

点赞数

分类专栏： Python 文本处理

原文链接：https://www.cnblogs.com/leomei91/p/7685797.html

版权

Python 同时被 2 个专栏收录

30 篇文章 0 订阅

订阅专栏

12 篇文章 0 订阅

订阅专栏

来源：https://www.cnblogs.com/leomei91/p/7685797.html

个人学习保存，侵删

---------------------------------------------------------------

在python中，unicode是内存编码集，一般我们将数据存储到文件时，需要将数据先编码为其他编码集，比如utf-8、gbk等。

读取数据的时候再通过同样的编码集进行解码即可。

1

2

3

4

5

6

7

8

#python3

>>> s = '中国'

>>> a = s.encode()

>>> a

b'\xe4\xb8\xad\xe5\x9b\xbd'

>>> b = a.decode()

>>> b

'中国'

但是其实还有一种unicode-escape编码集，他是将unicode内存编码值直接存储：

1

2

3

4

5

6

7

8

#python3

>>> s = '中国'

>>> b = s.encode('unicode-escape')

>>> b

b'\\u4e2d\\u56fd'

>>> c = b.decode('unicode-escape')

>>> c

'中国'

拓展：还有一种string-escape编码集，在2中可以对字节流用string-escape进行编码

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

#python2

>>> s = '中国'

>>> a = s.decode('gbk')

>>> print a

中国

>>> b = s.decode('utf-8')

Traceback (most recent call last):

File "<stdin>", line 1, in <module>

File "D:\python\python2.7\lib\encodings\utf_8.py", line 16, in decode

return codecs.utf_8_decode(input, errors, True)

UnicodeDecodeError: 'utf8' codec can't decode byte 0xd6 in position 0: invalid c

ontinuation byte

>>> c = s.decode('string-escape')

>>> print c

中国

chardet.detect()

使用chardet.detect()进行编码集检测时很多时候并不准确，比如中文过少时会识别成IBM855编码集：

1

2

3

4

5

#python3

>>> s = '中国'

>>> c = s.encode('gbk')

>>> chardet.detect(c)

{'encoding': 'IBM855', 'confidence': 0.7679697235616183, 'language': 'Russian'}

注：855 OEM 西里尔语 IBM855。

中文比较多时，还是准确的：

1

2

3

4

>>> s = '中国范文芳威风威风'

>>> c = s.encode('gbk')

>>> chardet.detect(c)

{'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'}

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

ElienC CSDN认证博客专家 CSDN认证企业博客

码龄12年

29: 原创

11万+: 周排名

94万+: 总排名

10万+: 访问

: 等级

821: 积分

9: 粉丝

62: 获赞

25: 评论

241: 收藏

私信

关注

热门文章

分类专栏

环境配置 12篇
Conda 9篇
VSCODE 4篇
学习资源推荐 4篇
开源社区 1篇
阅读笔记 2篇
深度学习 3篇
面向对象 3篇
CUDA 1篇
网络编程 2篇
ARM9 1篇
Python 30篇
文本处理 12篇
数理基础 11篇
NLP 10篇
Sklearn 1篇

最新评论

簇大小与分区4k对齐的关系
james旸爷: 4k没啥用。
多项分布的指数分布族形式的一个小坑
CSDN-Ada助手: 感谢博主分享关于多项分布的指数分布族形式的小坑，这对我们了解多项分布的指数分布族形式有很大帮助。对于技术博客的写作，建议博主可以分享一下“如何在机器学习中使用多项分布的指数分布族形式”。这样的博客不仅可以帮助读者深入了解多项分布的指数分布族形式，更可以帮助大家更好地应用到实际工作中。期待博主的下一篇精彩博客！ 2023年博客之星「城市赛道」年中评选已开启（https://activity.csdn.net/creatActivity?id=10470&utm_source=blog_comment_city ），博主的原力值在所在城市已经名列前茅，持续创作就有机会成为所在城市的 TOP1 博主（https://bbs.csdn.net/forums/blogstar2023?typeId=3152981&utm_source=blog_comment_city），更有丰厚奖品等你来拿~。
图说行列式：几张图让你明白行列式的性质
瑾言-自强不息: 博主写得很好，很用心，将行列式的概念进行了深刻的分析，我看懂了，而且不禁感叹，太神奇了，数学太有魅力了
LDA困惑度perplexity的一些个人理解
ElienC: 我想可以用于比较不同的batch size、迭代次数、收敛条件、随机种子等等
LDA困惑度perplexity的一些个人理解
大白兔15: 如果不能用于主题数之间的比较的话，我们要怎么用log.perplexity函数呢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。