python处理utf-16 le格式中文文本

最新推荐文章于 2024-02-01 04:01:13 发布

itgeeks

最新推荐文章于 2024-02-01 04:01:13 发布

阅读量1.2w

点赞数 1

分类专栏： python 文章标签： python 编码 utf8 utf16le

本文链接：https://blog.csdn.net/whzhcahzxh/article/details/23843561

版权

python 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

python做中文什么的，编码一向很头疼，当然，比c++神马的强多了

最近收到的一批文本数据是用utf-16-LE编码格式的，这个格式转换成utf8然后存入mongoDB是必须的步骤

找了些资料，分享一下转码方法

python有个包codecs

# 解码utf-16-LE
import codecs

filename = '../doc/chinanews/20140331/180447380.cns'

# utf_16_le
my_table = open(filename, 'r')

decoder = codecs.getdecoder('utf_16_le')

content = my_table.read() 
print decoder(content)[0]

打印出的是解码内容

打印decoder(content)[1]估计是这一段内容的长度，这个decoder出的内容是个tuple格式的二维元组

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

itgeeks

关注关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python读取ini文件utf-16 le,Python-使用BOM解码UTF-16文件

weixin_31477659的博客

01-30

1024

I have a UTF-16 LE file with BOM. I'd like to flip this file in to UTF-8 without BOM so I can parse it using Python.The usual code that I use didn't do the trick, it returned unknown characters instea...

python写入中文、用utf-16编码得出二进制字节串_python – 使用utf-16编码/解码苦苦挣扎...

weixin_39661881的博客

11-29

754

我正在解析一个包含UTF-16编码字符串的文档.我有一个包含以下内容的字节字符串：my_var = b'\xc3\xbe\xc3\xbf\x004\x004\x000\x003\x006\x006\x000\x006\x00-\x001\x000\x000\x003\x008\x000\x006\x002\x002\x008\x005'转换为utf-8时,我得到以下输出：print(my_var....

参与评论您还未登录，请先登录后发表或查看评论

Python读取UTF-16

heiyitian的专栏

07-31

4064

UTF-16的编码模式 UTF-16的大尾序和小尾序储存形式都在用。一般来说，以Macintosh制作或储存的文字使用大尾序格式，以Microsoft或Linux制作或储存的文字使用小尾序格式。为了弄清楚UTF-16文件的大小尾序，在UTF-16文件的开首，都会放置一个U+FEFF字符作为Byte Order Mark（UTF-16LE以FF FE代表，UTF-16BE以FE FF代表）

python 编码转换

yjp2006的专栏

06-23

4072

主要介绍了python的编码机制，unicode, utf-8, utf-16, GBK, GB2312,ISO-8859-1 等编码之间的转换。常见的编码转换分为以下几种情况：自动识别字

Python脚本开头两行：#!/usr/bin/python和# -*- coding: utf-8 -*-的作用

ab1213456的博客

04-13

609

转于：https://www.crifan.com/python_head_meaning_for_usr_bin_python_coding_utf-8/ 出处：在路上一、基本功能　1）#!/usr/bin/python 　　作用：用来说明脚本语言是python，要用/usr/bin下面的程序（工具）python，这个解释器，来解释python脚本，来运行python脚本的...

python写入中文、用utf-16编码得出二进制字节串_python编码问题

weixin_39687192的博客

03-02

1157

编码：真实字符 -->二进制串解码：二进制串 -->真实字符常见的编码方式：ASCII：1967 年第一次发布。ASCII码占8位，可以表示256个不同的字符。共收录了 128 个字符，包括控制码、空格、标点、数字、大小写字母，这样计算机就可以用不同字节来存储英语的文字了。GB2312：ASCII码的中文扩展。规定：一个小于127的字符的意义与原来相同，但两个大于127的字符连在一起时...

webSocket 二进制传输基础准备-UTF-16和UTF-8转Unicode

weixin_33827965的博客

04-10

1262

前言今天来学习UTF8转Unicode，UTF16转Unicode以达成UTF8,UTF16之间的互转。提炼成函数的公式我并没有放出来，我的目的只是为了更加理解字符编码之间的关系。如果你需要转码方式，可以找其他的库，或者根据我文章来进行提炼。基本利用按位操作符符号运算符就可以完成。今天这里只做UTF8转Unicode，UTF16转Unicode，后续转换可以看前面的文章。 1.基础...

python读取ini文件utf-16 le_如何利用python批量转换文件编码？例如，txt文件由UTF-16LE转为UTF-8……...

weixin_39684967的博客

12-11

484

# coding utf-8import osimport chardet# 获得所有txt文件的路径,传入文件所在文件夹路径def find_all_file(path: str) -> str:for root, dirs, files in os.walk(path):for f in files:if f.endswith('.txt'):fullname = os.path.joi...

如何利用python批量转换文件编码？例如，txt文件由UTF-16LE转为UTF-8……

12-21

如何利用python批量转换文件编码？例如，txt文件由UTF-16LE转为UTF-8…… 问题重现：往往利用python处理数据时，都会遇到文件编码格式不对，那么如何批量转换呢，下面直接上代码！实例：整个文件夹的txt文件由UTF-16LE转为UTF-8 # coding utf-8 import os import chardet # 获得所有txt文件的路径,传入文件所在文件夹路径 def find_all_file(path: str) -> str: for root, dirs, files in os.walk(path): for f in files

如何用python读取utf-16 le格式的文件

09-27

可以使用 python 的 built-in `open()` 函数来读取 UTF-16LE 格式的文件, 并在其中指定编码为 `'utf-16le'`. 例如: ``` with open('filename.txt', 'r', encoding='utf-16le') as f: data = f.read() ``` 在这里...

python中写入utf-16 bom文件 (用来批量生成xshell的docker登入脚本)

Rainy Chan

03-02

801

在docker容器的实际应用中，对于我这样的测试来讲最头疼的事情反而是有时候需要同时操作容器外和容器内容器外给挂载的路径rz文件，编译服务(以供容器内启动使用)，查看日志而容器内则负责启动服务，查看进程等操作经常不小心操作错误后来想到个解决方式就是像这样把容器外和容器内用标签分开并且给登入容器的配类似这样的脚本但到了后来，模拟的节点变多，容器越来越多 store这个容器已经多到...

将固定文件夹中TXT文件批量转为xlsx文件（双引号问题待处理）UTF-16LE

m0_73417754的博客

11-25

300

利用Python-jupyter notebook实现固定文件夹中的TXT文件转为xlsx文件（即转为excel文件）

python UnicodeDecodeError: 'utf-16-le' codec can't decode bytes in position 284-285: illegal encoding

08-18

总结起来，解决`UnicodeDecodeError: 'utf-16-le' codec can't decode bytes in position 284-285: illegal encoding`错误的方法是尝试使用正确的编码格式来解码文件，例如`utf-16-le`或`utf-8`，如果仍然无法解决...

UnicodeDecodeError: 'utf-16-le' codec can't decode bytes in position 80-81: unexpected end of data