1. 使用的是ckiptagger的分词包(不用jieba的原因是这个的准确度更高):
具体下载和使用可以查看ckiptagger的GitHub链接
from ckiptagger import data_utils, construct_dictionary, WS, POS, NER
data_utils.download_data_gdown("./") # gdrive-ckip
# 使用 GPU:
# 1. 安裝 tensorflow-gpu (請見安裝說明)
# 2. 設定 CUDA_VISIBLE_DEVICES 環境變數,例如:os.environ["CUDA_VISIBLE_DEVICES"] = "0"
# 3. 設定 disable_cuda=False,例如:ws = WS("./data", disable_cuda=False)
# 使用 CPU:
ws = WS("./data")
pos = POS("./data")
ner = NER("./data")
2. 导入需要处理的TXT文件:
# test.txt 是我们需要读入的繁体文本,如果遇到无法解码的错误,用errors跳过
f = open("test.txt", encoding='utf-8', errors