AipNlp情感分析报错UnicodeEncodeError:‘gbk’ codec can‘t encode... :illegal multibyte sequence详解

背景:

最近做情感分析任务,用百度的AipNlp轮子,结果数据导入之后发现编码问题如标题,全网暂无很好的解决方法。


问题描述:

我们一开始将需要进行情感分析的文本从网站爬取下来,存入excel(utf-8),用AipNlp.sentimentClassify()时依次传入每一句待分析的文本,但是当传入单句中出现“某些字符”时,便会报错。
报错截图如下:
在这里插入图片描述


失败的解决方案:

此问题其实是特殊字符导致的编码问题,经测试,我这里的文本需要全程使用utf-8编码才可以正常处理特殊符号。

失败的解决方案①:打开文件方式设置为encoding=utf-8(或utf-8-sig),并没有解决本质问题。如果打开文件方式设置为gbk则一开始就报错(因为文件是utf-8编码的)

失败的解决方案②:删除Unicode空白、控制字符。这里尝试了网上的remove_control_chars、strip_control_characters、re.s

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值