04

最新推荐文章于 2021-06-06 16:17:31 发布

weixin_43774343

最新推荐文章于 2021-06-06 16:17:31 发布

阅读量73

点赞数

本文链接：https://blog.csdn.net/weixin_43774343/article/details/100882220

版权

Python的字符串
搞清楚了令人头疼的字符编码问题后，我们再来研究Python的字符串。
在最新的Python 3版本中，字符串是以Unicode编码的，也就是说，Python的字符串支持多语言，例如：

print(‘包含中文的str’)
包含中文的str

对于单个字符的编码，Python提供了ord()函数获取字符的整数表示，chr()函数把编码转换为对应的字符：

ord(‘A’)
65

ord(‘中’)
20013

chr(66)
‘B’

chr(25991)
‘文’

如果知道字符的整数编码，还可以用十六进制这么写str：

‘\u4e2d\u6587’
‘中文’

两种写法完全是等价的。
由于Python的字符串类型是str，在内存中以Unicode表示，一个字符对应若干个字节。如果要在网络上传输，或者保存到磁盘上，就需要把str变为以字节为单位的bytes。
Python对bytes类型的数据用带b前缀的单引号或双引号表示：
x = b’ABC’

要注意区分’ABC’和b’ABC’，前者是str，后者虽然内容显示得和前者一样，但bytes的每个字符都只占用一个字节。
以Unicode表示的str通过encode()方法可以编码为指定的bytes，例如：

‘ABC’.encode(‘ascii’)
b’ABC’

‘中文’.encode(‘utf-8’)
b’\xe4\xb8\xad\xe6\x96\x87’

‘中文’.encode(‘ascii’)
Traceback (most recent call last):
File “”, line 1, in
UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 0-1: ordinal not in range(128)

纯英文的str可以用ASCII编码为bytes，内容是一样的，含有中文的str可以用UTF-8编码为bytes。含有中文的str无法用ASCII编码，因为中文编码的范围超过了ASCII编码的范围，Python会报错。
在bytes中，无法显示为ASCII字符的字节，用\x##显示。
反过来，如果我们从网络或磁盘上读取了字节流，那么读到的数据就是bytes。要把bytes变为str，就需要用decode()方法：

b’ABC’.decode(‘ascii’)
‘ABC’

b’\xe4\xb8\xad\xe6\x96\x87’.decode(‘utf-8’)
‘中文’

如果bytes中包含无法解码的字节，decode()方法会报错：

b’\xe4\xb8\xad\xff’.decode(‘utf-8’)
Traceback (most recent call last):
…
UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xff in position 3: invalid start byte

如果bytes中只有一小部分无效的字节，可以传入errors='ignore’忽略错误的字节：

b’\xe4\xb8\xad\xff’.decode(‘utf-8’, errors=‘ignore’)
‘中’

要计算str包含多少个字符，可以用len()函数：

len(‘ABC’)
3

len(‘中文’)
2

len()函数计算的是str的字符数，如果换成bytes，len()函数就计算字节数：

len(b’ABC’)
3

len(b’\xe4\xb8\xad\xe6\x96\x87’)
6

len(‘中文’.encode(‘utf-8’))
6

可见，1个中文字符经过UTF-8编码后通常会占用3个字节，而1个英文字符只占用1个字节。
在操作字符串时，我们经常遇到str和bytes的互相转换。为了避免乱码问题，应当始终坚持使用UTF-8编码对str和bytes进行转换。
由于Python源代码也是一个文本文件，所以，当你的源代码中包含中文的时候，在保存源代码时，就需要务必指定保存为UTF-8编码。当Python解释器读取源代码时，为了让它按UTF-8编码读取，我们通常在文件开头写上这两行：
#!/usr/bin/env python3

-- coding: utf-8 --

第一行注释是为了告诉Linux/OS X系统，这是一个Python可执行程序，Windows系统会忽略这个注释；
第二行注释是为了告诉Python解释器，按照UTF-8编码读取源代码，否则，你在源代码中写的中文输出可能会有乱码。

Python本身就内置了很多非常有用的模块，只要安装完毕，这些模块就可以立刻使用。
我们以内建的sys模块为例，编写一个hello的模块：
#!/usr/bin/env python3

-- coding: utf-8 --

’ a test module ’

author = ‘Michael Liao’

import sys

def test():
args = sys.argv
if len(args)==1:
print(‘Hello, world!’)
elif len(args)==2:
print(‘Hello, %s!’ % args[1])
else:
print(‘Too many arguments!’)

if name==‘main’:
test()

第1行和第2行是标准注释，第1行注释可以让这个hello.py文件直接在Unix/Linux/Mac上运行，第2行注释表示.py文件本身使用标准UTF-8编码；
第4行是一个字符串，表示模块的文档注释，任何模块代码的第一个字符串都被视为模块的文档注释；
第6行使用__author__变量把作者写进去，这样当你公开源代码后别人就可以瞻仰你的大名；
以上就是Python模块的标准文件模板，当然也可以全部删掉不写，但是，按标准办事肯定没错。
后面开始就是真正的代码部分。
你可能注意到了，使用sys模块的第一步，就是导入该模块：
import sys

导入sys模块后，我们就有了变量sys指向该模块，利用sys这个变量，就可以访问sys模块的所有功能。
sys模块有一个argv变量，用list存储了命令行的所有参数。argv至少有一个元素，因为第一个参数永远是该.py文件的名称，例如：
运行python3 hello.py获得的sys.argv就是[‘hello.py’]；
运行python3 hello.py Michael获得的sys.argv就是[‘hello.py’, 'Michael]。
最后，注意到这两行代码：
if name==‘main’:
test()

当我们在命令行运行hello模块文件时，Python解释器把一个特殊变量__name__置为__main__，而如果在其他地方导入该hello模块时，if判断将失败，因此，这种if测试可以让一个模块通过命令行运行时执行一些额外的代码，最常见的就是运行测试。
我们可以用命令行运行hello.py看看效果：
$ python3 hello.py
Hello, world!
$ python hello.py Michael
Hello, Michael!

如果启动Python交互环境，再导入hello模块：
$ python3
Python 3.4.3 (v3.4.3:9b73f1c3e601, Feb 23 2015, 02:52:03)
[GCC 4.2.1 (Apple Inc. build 5666) (dot 3)] on darwin
Type “help”, “copyright”, “credits” or “license” for more information.

import hello

导入时，没有打印Hello, word!，因为没有执行test()函数。
调用hello.test()时，才能打印出Hello, word!：

hello.test()
Hello, world!

weixin_43774343

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
04

Python的字符串搞清楚了令人头疼的字符编码问题后，我们再来研究Python的字符串。在最新的Python 3版本中，字符串是以Unicode编码的，也就是说，Python的字符串支持多语言，例如：print(‘包含中文的str’)包含中文的str对于单个字符的编码，Python提供了ord()函数获取字符的整数表示，chr()函数把编码转换为对应的字符：ord(‘...
复制链接

扫一扫