UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in position 246-247: ordinal not in range

最新推荐文章于 2024-06-23 17:59:26 发布

Mirza_Zhao

最新推荐文章于 2024-06-23 17:59:26 发布

阅读量430

点赞数

分类专栏： AI 大数据文章标签： python pyspark 分布式

本文链接：https://blog.csdn.net/z124665532/article/details/118111669

版权

AI 同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

大数据

2 篇文章 0 订阅

订阅专栏

在Python中处理包含中文的数据时，遇到`UnicodeEncodeError`，原因是默认编码不支持中文。针对Python2，可以尝试设置默认编码为utf8，但此方法在Python3中已废弃。对于Python3，可以使用`codecs`模块重置stdout编码为utf8，从而正确显示中文数据。

摘要由CSDN通过智能技术生成

项目场景：

在集群上写pyspark的时候遇到了这个问题

问题描述：

在进行df.show()操作的时候，由于数据中有中文，所以报错

Traceback (most recent call last):
  File "20210622_1259_test.py", line 13, in <module>
    df.show(100)
……
UnicodeEncodeError: 'ascii' codec can't encode characters in position 246-247: ordinal not in range(128)

原因分析：

网上搜了一下发现是python编码的问题，默认编码不支持中午，因此需要修改编码支持中文

解决方案：

方法一：
修改python编码为utf8就行了，添加如下代码：

import sys
reload(sys)
sys.setdefaultencoding("utf-8")

注意：这个方法好像只针对python2有用，python3之后移除了setdefaultencoding方法，这么用会报错。

方法二：
添加如下代码：

import sys
import codecs
sys.stdout = codecs.getwriter("utf-8")(sys.stdout.detach())

这个方法在python3上可以使用

Mirza_Zhao

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录