前面我们稍微了解了下编码的一些内容,它的具体实现将在本文展开,以python为例,我使用pycharm进行文件的读写。
首先,我们要知道,在计算机存储和网络传输过程中,使用utf-8编码比较多,以便节省空间和传输,而计算机内存中,使用unicode进行编码,定长以便计算。
比如说,打开一个txt文件,输入 123 ,保存并关闭,整个过程如下:
1.将txt文件加载到内存,按123,按照unicode(ucs4)一共将32位0101这样的机器码输入到计算机电路。
2.保存文件时,采用utf-8的编码对unicode压缩,采用 b \xe4\xbd…这样的形式存储。
3.再次打开时,会将b \xe4\xbd…这样的形式转为unicode中0101…这样的形式到内存,显示到屏幕上就是对应的123。
str 与 byte | encode与decode
顾名思义,str是字符串,byte是字节。
打开pycharm后,你的pycharm运行在内存中,str默认就是采用unicode编码格式,如果要进行网络传输,需要先转为utf-8的形式。
如先写一个内容,通过网络传输:
s1 = 'hello,world 你好,世界'
s2