python3.5 读取文本文件出现乱码

逍遥_yjz

已于 2024-04-21 17:15:40 修改

阅读量18

点赞数

分类专栏： python基础文章标签： python

于 2018-07-09 11:44:05 首次发布

本文链接：https://blog.csdn.net/xiaoyaozizai017/article/details/79215586

版权

python基础专栏收录该内容

24 篇文章 0 订阅

订阅专栏

1.读取文本文件出现乱码

1.1 python2.7

首先，在Python2.7的里面只要设置和编码，读取文本是没有问题的：

# -*- coding:utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding("utf-8")

一般我们用Python2.7，保证输出中文，以上就已经搞定啦。
例子：

# -*- coding:utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
import codecs

def testshData():
    print('测试社会文本数据开始')
    f_read = open(
        r'D:tetsData\shData.txt', 'r'
        )
    news_zhengwen = f_read.readlines()
    f = codecs.open(
        r'D:resultData\result.txt',
        'w', encoding='utf-8')

    for line in news_zhengwen:
        m = line.strip().split('\001')  # 去除头尾空格，以\001进行切开
        print(m[1])

testshData()

1.2 python3.5

以前可以说仿照Python2的方法来设置编码问题，

from imp import reload reload(MyModule)

或

import importlib,sys
importlib.reload(sys)
sys.setdefaultencoding("utf-8")

这些东西全部是错的，现在python3已经更新换代，删除啦这些没必要的东西，这些已成为过去啦。
python3 默认的编码为unicode
py 文件开头也没必要设置：# -*- coding:utf-8 -*-
只需要在读取文章的时候，设置一个：`encoding=‘utf-8’, errors=“ignore”
成功读取。。。。。
例如：

# -*- coding:utf-8 -*-
import codecs


def testshData():
    print('测试社会文本数据开始')
    f_read = codecs.open(
        r'D:tetsData\shData.txt', 'r'
        , encoding='utf-8', errors="ignore")
    news_zhengwen = f_read.readlines()
    f = codecs.open(
        r'D:resultData\result_shData.txt',
        'w', encoding='utf-8')
    i= 0
    for line in news_zhengwen:
        i +=1
        m = line.strip().split('\001')  # 去除头尾空格，以\001进行切开
        print(m[1])
        f.write(''.join(m[1])+'\n')
    print(i)

testshData()

参考链接（虽然都过时啦，没什么用）：
reload
lib

逍遥_yjz

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
python3.5 读取文本文件出现乱码

1.读取文本文件出现乱码1.1 python2.7首先，在Python2.7的里面只要设置和编码，读取文本是没有问题的：# -*- coding:utf-8 -*-import sysreload(sys)sys.setdefaultencoding("utf-8")一般我们用Python2.7，保证输出中文，以上就已经搞定啦。例子：# -*- coding:
复制链接

扫一扫

专栏目录