一文搞定繁体字预处理和词云生成(wordcloud)

本文介绍了如何使用ckiptagger而非jieba进行繁体字的高精度分词,详细步骤包括导入TXT文件、查看词性、移除停留词以及利用wordcloud生成词云。在处理过程中,特别提到了需要指定utf-8编码,并且要准备繁体字的字体包。
摘要由CSDN通过智能技术生成

1. 使用的是ckiptagger的分词包(不用jieba的原因是这个的准确度更高):

具体下载和使用可以查看ckiptagger的GitHub链接

from ckiptagger import data_utils, construct_dictionary, WS, POS, NER
data_utils.download_data_gdown("./") # gdrive-ckip
# 使用 GPU:
#    1. 安裝 tensorflow-gpu (請見安裝說明)
#    2. 設定 CUDA_VISIBLE_DEVICES 環境變數,例如:os.environ["CUDA_VISIBLE_DEVICES"] = "0"
#    3. 設定 disable_cuda=False,例如:ws = WS("./data", disable_cuda=False)
# 使用 CPU:
ws = WS("./data")
pos = POS("./data")
ner = NER("./data")

2. 导入需要处理的TXT文件:

# test.txt 是我们需要读入的繁体文本,如果遇到无法解码的错误,用errors跳过
f = open("test.txt", encoding='utf-8', errors
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Lobster0722

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值