Python学习笔记（3）---数据编码

xman4code

于 2016-11-02 16:33:51 发布

阅读量283

点赞数

文章标签： python utf-8 编码 unicode

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xman4code/article/details/53009277

版权

Python学习笔记（3）—数据编码

Python学习笔记3数据编码

在计算机中8位二进制（bit）为一个字节Byte（Bit）。

ASCII码

初始，计算机只引进了127个大小写英文+数字+符号。这就是ASCII码。ASCII只有8位二进制（8位二进制为一个字节），一个字节最多能表示255个不同的值（一个字节的极限）ASCII的范围从 0000 0000–>0111 1111 。

Unicode

由于其他的语言的复杂性，所以用一个字节255的容量来表示某些语言会有些吃力，比如汉字，日文等等。为了计算机之间可以互相通讯所以需要一种编码，这种编码可以统一表示全球各种形式的语言和符号，因此Unicode出现了，它使用了2个字节（待考究）来表示大部分种类的语言及符号。

UTF-8

虽然Unicode可以解决多种字符的表示问题，但是如果在只需要表示字母数字的时候，Unicode就会浪费大量的空间。所以就有了折中方案UTF-8。UTF-8把字符根据内容不同分为了1-6个字节，比如当表示字母数字的时候就用一个字节（表示方法与ASCII码相同），当表示汉字的时候用3或更多个。

当字符在内存中存在时，使用的是统一的Unicode，便于统一计算显示，而当字符需要保存到硬盘或者进行传输的时候便使用UTF-8

Python的字符串

在Python3里字符串是以Unicode编码的，所以它支持多种语言。

>>>print('中文English')
中文English
>>>

Python里提供了编码转换的函数比如:

函数ord()把字符按编码用十进制表示出来

>>>ord('a')
97
>>>

函数chr()把数字变成相应的字符

>>>chr(97)
a
>>>

可以用len()函数来得到字符串的长度。

>>>a = 'English'
>>>len(a)
7
>>>b = '中文'
>>>len(b)
2

由于Python源代码也是一个文本文件，所以，当你的源代码中包含中文的时候，在保存源代码时，就需要务必指定保存为UTF-8编码。当Python解释器读取源代码时，为了让它按UTF-8编码读取，我们通常在文件开头写上这两行：

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python学习笔记（3）---数据编码

Python学习笔记（3）—数据编码Python学习笔记3数据编码ASCII码UnicodeUTF-8Python的字符串在计算机中8位二进制（bit）为一个字节Byte（Bit）。ASCII码初始，计算机只引进了127个大小写英文+数字+符号。这就是ASCII码。ASCII只有8位二进制（8位二进制为一个字节），一个字节最多能表示255个不同的值（一个字节的极限）ASCII的范围
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。