输入:原始文本(id, category, review)
示例:
id | category | review |
1 | 1 | however, i can't read when ibooks is continually glitching and shutting down for no reason |
机器学习:
1. 数据预处理(去停用词,词干化,引理化,分词等);
2. 特征提取(BoW,TF-IDF),这一步将文本用向量表示;
3. 数据分割(训练集和测试集);
4. 使用训练集训练分类器(NB, LR, DT, RF, SVM等分类器);
5. 使用训练好的分类器预测测试集中文本的类别。
深度学习:
1. 数据预处理;
2. 训练词嵌入(Word2Vec, FastText等词向量)或者字符嵌入;
3. 构建深度学习模型(TextCNN, RCNN, CharCNN等);
4. 使用训练集训练深度学习模型;
5. 使用训练好的模型预测测试集中文本的类别
机器学习+深度学习源码:https://github.com/XueyingLi1/Machine-learning_text-classification