机器学习系列
文章平均质量分 81
yaochuyi
这个作者很懒,什么都没留下…
展开
-
kNN算法原理
KNN算法概述KNN算法的思想K近邻法(k-nearst neighbors,KNN)是一种很基本的机器学习方法。它的思想是: 在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据,则该测试数据对应的类别就是K个数据中出现次数最多的那个分类。KNN算法的描述1)计算测试数据与各个训练数据之间...原创 2018-04-22 01:06:22 · 5343 阅读 · 0 评论 -
SVM(2)问题的描述与求解
参考:http://www.blogjava.net/zhenandaci/archive/2009/02/13/254578.html 上节说到我们有了一个线性分类函数,也有了判断解优劣的标准——即有了优化的目标,这个目标就是最大化几何间隔,但是看过一些关于SVM的论文的人一定记得什么优化的目标是要最小化||ω||||ω||||\omega||这样的说法,这是怎么回事呢?回头再看看我们对间隔和...转载 2018-04-20 00:46:19 · 344 阅读 · 0 评论 -
正则化(2)机器学习和深度学习中的正则化方法
参考: https://blog.csdn.net/u012162613/article/details/44261657 https://blog.csdn.net/liujiandu101/article/details/551038311. 正则化方法:防止过拟合,提高泛化能力正则化(1) L1和L2正则化2. DropoutL1、L2正则化是通过修改代价函数来实现的...原创 2018-04-21 20:35:04 · 385 阅读 · 0 评论 -
正则化(1) L1和L2正则化
正则化(Regularization)参考: https://blog.csdn.net/jinping_shi/article/details/52433975 https://blog.csdn.net/u012162613/article/details/442616571. 正则化的概念规则化 vs 正则化 - 规则化,顾名思义,给你的模型加入某些规则,来达到某些目的(...原创 2018-04-21 01:59:23 · 1483 阅读 · 0 评论 -
GBDT算法
公式推导没太懂…直接移步大佬博客吧 梯度提升树(GBDT)原理小结 https://www.cnblogs.com/pinard/p/6140514.html挑一些重要的记下来1. GBDT概述GBDT也是集成学习Boosting家族的成员,但是却和传统的Adaboost有很大的不同。回顾下Adaboost,我们是利用前一轮迭代弱学习器的误差率来更新训练集的权重,这样一轮轮的迭...转载 2018-04-25 10:25:20 · 345 阅读 · 0 评论 -
SVM(4)松弛变量与惩罚因子
http://www.blogjava.net/zhenandaci/category/31868.html近似线性可分现在我们已经把一个本来线性不可分的文本分类问题,通过映射到高维空间而变成了线性可分的。就像下图这样: 圆形和方形的点各有成千上万个(毕竟,这就是我们训练集中文档的数量嘛,当然很大了)。现在想象我们有另一个训练集,只比原先这个训练集多了一篇文章,映射到高维空间以后...转载 2018-04-20 18:26:35 · 1043 阅读 · 0 评论 -
集成学习之AdaBoost
AdaBoost(Adaptive Boosting ) 转自:http://www.cnblogs.com/pinard/p/6133937.html1. 回顾boosting算法的基本原理 有几个具体的问题Boosting算法没有详细说明:如何计算学习误差率e?如何得到弱学习器权重系数α?如何更新样本权重D?使用何种结合策略?只要是boosting大家族的算法,都...转载 2018-04-24 21:18:46 · 360 阅读 · 0 评论 -
SVM(3)核函数
核函数以下内容来自http://www.blogjava.net/zhenandaci/archive/2009/03/06/258288.html 之前一直在讨论的线性分类器,器如其名(汗,这是什么说法啊),只能对线性可分的样本做处理。如果提供的样本线性不可分,结果很简单,线性分类器的求解程序会无限循环,永远也解不出来。这必然使得它的适用范围大大缩小,而它的很多优点我们实在不原意放弃,怎么...转载 2018-04-20 02:11:15 · 413 阅读 · 0 评论 -
SVM(1)简介
参考:http://www.blogjava.net/zhenandaci/category/31868.html 也可参考刘建平大佬博客:http://www.cnblogs.com/pinard/p/6097604.htmlSVM简介http://www.blogjava.net/zhenandaci/archive/2009/02/13/254519.html 所谓VC维是对函数...转载 2018-04-19 20:08:06 · 274 阅读 · 0 评论 -
logistic回归损失函数与梯度下降
逻辑回归中,假设函数hypothesis hθ(x)hθ(x)h_\theta(x)为: hθ(x)=g(θTx)=11+e−θTx=g(θTx+b)hθ(x)=g(θTx)=11+e−θTx=g(θTx+b)h_\theta(x)=g(\theta^\mathrm{T}x)=\frac{1}{1+e^{-\theta^\mathrm{T}x}}=g(\theta^\mathrm{T}x+b) ...原创 2018-04-19 14:30:46 · 6935 阅读 · 3 评论 -
朴素贝叶斯
naive bayes 垃圾邮件识别转载 2018-04-23 02:35:01 · 138 阅读 · 0 评论 -
随机森林RF
Random Forest 是Bagging算法的进化版,也就是说,它的思想仍然是bagging,但是进行了独有的改进。bagging+CART决策树=随机森林首先,RF使用了CART决策树作为弱学习器; 第二,在使用决策树的基础上,RF对决策树的建立做了改进,对于普通的决策树,我们会在节点上所有的n个样本特征中选择一个最优的特征来做决策树的左右子树划分,但是RF通过随机选择节点上的一部...转载 2018-04-23 02:28:22 · 200 阅读 · 0 评论 -
决策树
决策树模型决策树举例相亲栗子: 再来一个栗子: 机器学习算法其实很古老,作为一个码农经常会不停的敲if, else if, else,其实就已经在用到决策树的思想了。只是你有没有想过,有这么多条件,用哪个条件特征先做if,哪个条件特征后做if比较优呢?怎么准确的定量选择这个标准就是决策树机器学习算法的关键了。1970年代,一个叫昆兰的大牛找到了用信息论中的熵来度量决策树的决...原创 2018-04-23 02:04:49 · 410 阅读 · 0 评论 -
常见算法总结
监督学习监督学习分为两大类:回归分析 线性回归分类 logistic回归、SVM、KNN、朴素贝叶斯、决策树、随机森林、GBDT、Adaboost、XGboost、LDA无监督学习聚类 k-means、PCA、关联规则深度学习CNN、RNN强化学习马尔可夫决策过程常见的十种机器学习算法https://blog.csdn.net/h...原创 2018-04-22 11:48:12 · 357 阅读 · 0 评论 -
集成学习之bagging和boosting
什么是集成学习?将多个分类方法聚集在一起,以提高分类的准确率。 (这些算法可以是不同的算法,也可以是相同的算法) 集成学习法由训练数据构建一组基分类器,然后通过对所有基分类器的预测投票进行分类。严格来说,集成学习并不算是一种分类器,而是一种分类器结合的方法。通常,一个集成分类器的分类性能会好于单个分类器。如果把单个分类器当作一个决策者的话,集成学习的方法就相当于多个决策者共同进行一项...原创 2018-04-21 20:29:14 · 982 阅读 · 0 评论 -
PCA算法
PCA的思想投影介绍从两种思路推导PCAPCA算法流程及总结KPCA介绍转载 2018-04-22 21:25:56 · 7133 阅读 · 2 评论 -
k-meas算法
k-means & KNNk-means与kNN虽然都是以k打头,但却是两类算法——kNN为监督学习中的分类算法,而k-means则是非监督学习中的聚类算法; 二者相同之处:均利用近邻信息来标注类别。k-means基本算法在k-means算法中,用质心来表示cluster;且容易证明k-means算法收敛等同于所有质心不再发生变化。基本的k-means算法流程如下:选...原创 2018-04-22 10:45:00 · 2356 阅读 · 0 评论 -
XGBoost算法
XGBoost (eXtreme Gradient Boosting)参考: 原理: xgboost入门与实战(原理篇) https://blog.csdn.net/sb19931201/article/details/52557382 xgboost原理及应用–转 https://www.cnblogs.com/zhouxiaohui888/p/6008368.html调参: ...转载 2018-04-25 20:43:38 · 244 阅读 · 0 评论