coursera自然语言处理(NLP)最新课程 笔记01
Logistics regression逻辑回归
流程
监督学习
以情感分析为例,
- 用training set的raw data提取出有用的特征
- 训练classifier并最小化cost
- 根据trained model,进行分类
feature extraction
- 分词–提取出所有出现的词
句子表示方式:sparse representation–整个词语字典上,句中出现的词标1,其余标0
意味着每个句子都是n+1(n代表字典中所有词的数目)维的向量
缺点: - 训练时间长
- 预测花费时间长
解决->frequency dictionary
- 计算positive frequency和negative frequency——在positive和negative句子中这个词出现的次数
这样,一个句子就可以用3维向量表示
preprocessing
1、去除stop words和标点(需要去除的标点看情况)
2、其他无用信息(eg:针对推文,handles和url可以删除)
3、stemming&lowercasing 统一小写和词形