python做中文什么的,编码一向很头疼,当然,比c++神马的强多了
最近收到的一批文本数据是用utf-16-LE编码格式的,这个格式转换成utf8然后存入mongoDB是必须的步骤
找了些资料,分享一下转码方法
python有个包codecs
# 解码utf-16-LE
import codecs
filename = '../doc/chinanews/20140331/180447380.cns'
# utf_16_le
my_table = open(filename, 'r')
decoder = codecs.getdecoder('utf_16_le')
content = my_table.read()
print decoder(content)[0]
打印出的是解码内容
打印decoder(content)[1]估计是这一段内容的长度,这个decoder出的内容是个tuple格式的二维元组