做爬虫,经常回碰到乱码问题,经常性弄得头痛不已,看看这长长的一串串replace就无语
老是报错:
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-21: ordi
nal not in range(128)
生气!
后来发现,发现这问题的原因是:UTF-8编码中文的字节通常是3-4字节,Emoji表情是4字节,读写数据库稍不留神就报错!
哈哈哈哈哈哈发现问题就简单了,目前我们文本分析不需要分析表情包,我决定把它们都删了!
然后:emoji官网,https://pypi.org/project/emoji/(靠谱的emoji处理库)
安装 pip install emoji
官方例子如下:
清除命令:
emoji.demojize(str)
结果如下:
hhhhhh
success!