Python调用jieba分词中的中文编码问题

昆libra

于 2015-10-10 10:27:12 发布

阅读量1.2w

点赞数 7

分类专栏： python 文章标签： python 编码

本文链接：https://blog.csdn.net/zzukun/article/details/49019685

版权

在尝试使用Python调用jieba库进行中文分词时，遇到了UnicodeEncodeError，错误指出'ascii' codec无法编码字符。了解到问题在于中文在utf-8和unicode之间的转换。官方文档表明返回结果是generator类型，通过编码处理后得到了结果，但对于Python的熟悉程度有限，不确定是否存在更优的解决方案。

摘要由CSDN通过智能技术生成

使用python调用jieba进行中文分词： https://github.com/fxsjy/jieba

根据官方指导完成安装，copy demo，出现问题：

<span style="font-size:18px;"># encoding=utf-8
import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式</span>

报错：

UnicodeEncodeError: 'ascii' codec can't encode character u'\u6211' in position 12: ordinal not in range(128)

之前就知道python处理中文比较麻烦，通过报错可知中文在 utf-8和unicode转换中出现问题

通过官方文档，可知：

最低0.47元/天解锁文章

昆libra

关注

7
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Python调用jieba分词中的中文编码问题

使用python调用jieba进行中文分词： https://github.com/fxsjy/jieba根据官方指导完成安装，copy demo，出现问题：# encoding=utf-8import jiebaseg_list = jieba.cut("我来到北京清华大学", cut_all=True)print("Full Mode: " + "/ ".join(se
复制链接

扫一扫

专栏目录