基础分类算法小结(一)

学习了一些基础分类算法的Python实现,对比之前只看书的方法,这一次看程序帮助理解更深,防止忘记,屡一下思路。

1.朴素贝叶斯(Naivebayes)

(1)原理:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。
1.朴素的含义:特征相互独立性
2.对极大似然估计的修正问题。(防止0概率)
(2)实现:
<1>计算每个分类的类别概率p(y1)、p(y2)...
<2>计算不同类别下各个属性的概率p(x1|y1)、p(x2|y1)、p(x3|y1)...p(x1|y2)、p(x2|y2)...
<3>
p(x|y1)=p(x1|y1)*p(x2|y1)*p(x3|y1)*...

......

<4>求后验概率:p(y1|testx)=p(x|y1)*p(y1)/Σ(对各类来说分母都一样,所以只算分子)

                               p(y2|testx)=p(x|y2)*p(y2)

......

比较后验概率,选择最大的所对应类别。

(3)对于特征相关性不大的预测效果很好


2.k近邻算法(KNN)

(1)实现:<1>计算一个预测样本到各个训练样本的距离(相似度)

<2>k一般指在15以内的奇数,表示离预测样本最近的K个训练样本。

对距离排序后,选择出前K个距离值小的训练样本对应的类别。

<3>K里哪个类别最多,即为预测类别


(2)特点:比较简单的一个方法,准确率一般。K多的时候训练太慢、盲目计算所有距离。
   改进:加权距离、计算压缩到在接近测试样本邻域的小范围内(kd树)

3.逻辑回归(logistics regesstion)
一般用于两类分类
(1)实现: <1>连续值映射到离散二值上,对sigmoid function的理解。(与样本的概率联系起来)
<2>代价函数最小(梯度下降法)训练权值。
<3>做出分类
具体参看洞庭小哥的总结:http://blog.csdn.net/dongtingzhizi/article/details/15962797
(2)用于多分类时候,一对多思想,几个类就训练出几组权值,带入测试数据选择使概率最大的权值对应的类别。(待实现)参看博主bass58的博                                                文:http://blog.csdn.net/bdss58/article/details/42065383




  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值