基础分类算法小结（一）

最新推荐文章于 2024-08-12 19:18:27 发布

伊伊note

最新推荐文章于 2024-08-12 19:18:27 发布

阅读量835

点赞数 1

分类专栏：机器学习算法文章标签：算法 python 分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yiyisunshine/article/details/53159904

版权

机器学习算法专栏收录该内容

5 篇文章 0 订阅

订阅专栏

学习了一些基础分类算法的Python实现，对比之前只看书的方法，这一次看程序帮助理解更深，防止忘记，屡一下思路。

1.朴素贝叶斯（Naivebayes）

（1）原理：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。

1.朴素的含义：特征相互独立性

2.对极大似然估计的修正问题。（防止0概率）

（2）实现：

<1>计算每个分类的类别概率p(y1)、p（y2）...

<2>计算不同类别下各个属性的概率p(x1|y1)、p(x2|y1)、p(x3|y1)...p(x1|y2)、p(x2|y2)...

<3>

p(x|y1)=p(x1|y1)*p(x2|y1)*p(x3|y1)*...

......

<4>求后验概率：p(y1|testx)=p(x|y1)*p(y1)/Σ（对各类来说分母都一样，所以只算分子）

p(y2|testx)=p(x|y2)*p(y2)

......

比较后验概率，选择最大的所对应类别。

（3）对于特征相关性不大的预测效果很好

2.k近邻算法（KNN）

（1）实现:<1>计算一个预测样本到各个训练样本的距离（相似度）

<2>k一般指在15以内的奇数，表示离预测样本最近的K个训练样本。

对距离排序后，选择出前K个距离值小的训练样本对应的类别。

<3>K里哪个类别最多，即为预测类别

（2）特点：比较简单的一个方法，准确率一般。K多的时候训练太慢、盲目计算所有距离。

改进：加权距离、计算压缩到在接近测试样本邻域的小范围内（kd树）

3.逻辑回归（logistics regesstion）

一般用于两类分类

（1）实现： <1>连续值映射到离散二值上，对sigmoid function的理解。（与样本的概率联系起来）

<2>代价函数最小（梯度下降法）训练权值。

<3>做出分类

具体参看洞庭小哥的总结：http://blog.csdn.net/dongtingzhizi/article/details/15962797

（2）用于多分类时候，一对多思想，几个类就训练出几组权值，带入测试数据选择使概率最大的权值对应的类别。（待实现）参看博主bass58的博文：http://blog.csdn.net/bdss58/article/details/42065383

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
基础分类算法小结（一）

学习了一些基础分类算法的Python实现，对比之前只看书的方法，这一次看程序帮助理解更深，防止忘记，屡一下思路。1.朴素贝叶斯（Naivebayes）（1）原理：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。 1.朴素的含义：特征相互独立性2.对极大似然估计的修正问题。（防止0概率）（2）实现：计算每个分类
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。