1、背景
数据集大小为1万,其中训练集5000,测试集5000,共十类。
开发环境:Python3.6+Windows+PyCharm
2、前期准备
获取1万数据集,分词,去停止词并存入MySQL数据库。
3、从数据库读取数据
def train_corpus_generator():
global db
# coding:utf-8
num = 0
for topic in topics:
num += 1
# 到第十类时要终止迭代器
print(topic)
if num == 11:
return [[topic, item[1],item[2]] for item in db.query(topic, 0, config["trainset_num"])]
else:
yield [[topic, item[1],item[2]] for item in db.query(topic, 0, config["trainset_num"])]
4、获取训练集与测试集数据并转换为要求格式
train = train_corpus_generator()
train = tuple(train)
train_opinion, train_content = stop_words_ch(train)
train_opinion = transLabel(train_opinion) # 将类别改为数字格式
train_opinion = np.array(train_opinio