coursera-NLP最新课程 笔记01

这篇博客是Coursera自然语言处理课程的笔记,涵盖了逻辑回归和朴素贝叶斯的基本概念。在逻辑回归部分,讨论了特征提取、预处理和训练过程,包括梯度下降法和成本函数。朴素贝叶斯部分介绍了条件概率、拉普拉斯平滑和错误分析。此外,还提到了向量空间模型,如欧氏距离和余弦相似性。
摘要由CSDN通过智能技术生成

coursera自然语言处理(NLP)最新课程 笔记01

课程来源-Coursera
课程来源-b

Logistics regression逻辑回归

流程

监督学习
监督学习流程
以情感分析为例,

  1. 用training set的raw data提取出有用的特征
  2. 训练classifier并最小化cost
  3. 根据trained model,进行分类
    情感分析为例
feature extraction
  • 分词–提取出所有出现的词
    句子表示方式:sparse representation–整个词语字典上,句中出现的词标1,其余标0
    意味着每个句子都是n+1(n代表字典中所有词的数目)维的向量
    缺点:
  • 训练时间长
  • 预测花费时间长

解决->frequency dictionary

  • 计算positive frequency和negative frequency——在positive和negative句子中这个词出现的次数

这样,一个句子就可以用3维向量表示
3维表示

preprocessing

1、去除stop words和标点(需要去除的标点看情况)
prepro
2、其他无用信息(eg:针对推文,handles和url可以删除)
删除其他无用信息
3、stemming&lowercasing 统一小写和词形

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值