Python2 处理Unicode文件读写方法
最近是要写一个脚本使用pyhton2来处理Unicode编码的文本文件,遇到一些问题,在pyhton2中open函数没有encode的参数,但python3中是可以下面这样写
with open("./aaa","r",encode = "UTF-16") as fp:
Data = fp.read()
'''
报了如下错误:
with open(file,"r", encoding='UTF-16') as fp:
TypeError: 'encoding' is an invalid keyword argument for this function
'''
解决办法
读文件
方法1
Unicode编码文本文件,利用decode函数解码成字符串
文本文件内容
#! /usr/bin/env python
# -*- coding: UTF-8 -*-
import os
import sys
import re
import codecs
with open("./aaa.txt","r") as fp:
header = fp.read(4)
text = fp.read().decode('utf-16-le')
text_line = text.split(',\r\n') # 注意python2 中换行符号是\r\n python3中\r\n 和\n都支持
for line in text_line:
print line
执行结果
方法2
Unicode编码文本文件,利用codecs模块的open函数 处理’UTF-16’编码
#! /usr/bin/env python
# -*- coding: UTF-8 -*-
import os
import codecs
with codecs.open("./aaa.txt","r", encoding='UTF-16') as fp:
for line in fp.readlines():
print line
执行结果
写文件
方法一,也是利用codecs模块的open函数 处理’UTF-16’编码
#! /usr/bin/env python
# -*- coding: UTF-8 -*-
import os
import codecs
with codecs.open("./aaa1.txt","w+", encoding='UTF-16') as fp:
fp.write(u"中文")
执行结果
方法二,利用encode函数编码成UTF-16
#! /usr/bin/env python
# -*- coding: UTF-8 -*-
import os
import codecs
with open("./aaa1.txt","w+") as fp:
fp.write(u"英语".encode('UTF-16'))
执行结果
推荐使用codecs模块 处理 可以达到和python3一样的效果
***python3***中查看文本文件编码类型利用chardet模块 注意这里是python3 并不是python2 ,python2还没有找到都文本编码类型的方法
#! /usr/bin/env python
# -*- coding: UTF-8 -*-
import os
import chardet
# 查看文本编码格式
fp12 = open("./aaa.txt","rb")
Data = fp12.read()
print(chardet.detect(Data)['encoding'])
fp12.close()
执行结果