coursera-NLP最新课程笔记01

最新推荐文章于 2023-11-28 13:29:44 发布

一只dumpling

最新推荐文章于 2023-11-28 13:29:44 发布

阅读量292

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiangyutianxia/article/details/107665278

版权

这篇博客是Coursera自然语言处理课程的笔记，涵盖了逻辑回归和朴素贝叶斯的基本概念。在逻辑回归部分，讨论了特征提取、预处理和训练过程，包括梯度下降法和成本函数。朴素贝叶斯部分介绍了条件概率、拉普拉斯平滑和错误分析。此外，还提到了向量空间模型，如欧氏距离和余弦相似性。

摘要由CSDN通过智能技术生成

coursera自然语言处理(NLP)最新课程笔记01

课程来源-Coursera
课程来源-b

Logistics regression逻辑回归

流程

监督学习
监督学习流程
以情感分析为例，

用training set的raw data提取出有用的特征
训练classifier并最小化cost
根据trained model，进行分类

feature extraction

分词–提取出所有出现的词
句子表示方式：sparse representation–整个词语字典上，句中出现的词标1，其余标0
意味着每个句子都是n+1(n代表字典中所有词的数目)维的向量
缺点：
训练时间长
预测花费时间长

解决->frequency dictionary

计算positive frequency和negative frequency——在positive和negative句子中这个词出现的次数

这样，一个句子就可以用3维向量表示
3维表示

preprocessing

1、去除stop words和标点（需要去除的标点看情况）
prepro
2、其他无用信息（eg:针对推文，handles和url可以删除）
删除其他无用信息
3、stemming&lowercasing 统一小写和词形

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。