某大学:基于电影评论数据的中文情感分析。
基于电影评论数据的中文情感分析
1. Data Preparation
1).数据集
使用电影评论数据作为训练数据集. 其中, 训练数据集20000条(正负向各10000条); 测试数据集6000条(正负向各3000条)
2).数据预处理
1.去除停用词, 并使用jieba进行分词
2.使用预训练的词向量模型,对句子进行向量化
2. 各种实现方法准确率对比
Algorithm | Accuracy(avg) | Accuracy(fasttext) | Accuracy(matrix) | 说明 |
---|---|---|---|---|
Naive-Bayes | 73.72% | 74.32% | 69.34%(拼接和补齐) | / |
Decision-Tree | 65.27% | 66.84% | 55.34%(拼接和补齐) | / |
KNN | 76.69%({‘n_neighbors’: 19}) |