机器学习实战
读书笔记 - 机器学习实战 - Peter Harrington 2013 人民邮电出版社
K5niper
这个作者很懒,什么都没留下…
展开
-
读书笔记 - 机器学习实战 - 10 k-均值聚类
10 kkk-均值聚类(Grouping unlabeled items using k-means clustering)聚类(clustering):一种无监督学习(unsupervised learning)算法,自动生成相似样本簇(cluster)。kkk-均值(kkk-means):生成kkk个簇,各簇中心为簇内样本均值。聚类也称非监督分类(unsupervised classif...原创 2019-07-20 18:57:53 · 411 阅读 · 1 评论 -
读书笔记 - 机器学习实战 - 8 数值预测 - 回归
8 数值预测 - 回归(Predicting numeric values regression)8.1 利用线性逻辑回归计算最佳匹配边界(Finding best-fit lines with linear regression)支持向量机(support vector machines):优点:结果容易解释,计算成本低 缺点:处理线性不可分数据表现差 适用范围:数值和标称值 回...原创 2019-04-06 18:14:32 · 380 阅读 · 0 评论 -
读书笔记 - 机器学习实战 - 7 用AdaBoost算法改进分类
7 用AdaBoost算法改进分类(Improving classification with the AdaBoost meta-algorithm)元算法(meta-algorithms)是一种将各种算法组合的方法,用于消除不同机器学习算法求解问题时的差异性。分类不平衡(classification imbalance):各类别包含样本数量差异极大。7.1 使用多样本数据集的分类器(Cl...原创 2019-04-01 09:05:09 · 1278 阅读 · 0 评论 -
读书笔记 - 机器学习实战 - 6支持向量机(2)
6 支持向量机(Support vector machines)6.4 Platt SMO算法(Speeding up optimization with the full Platt SMO)Platt SMO算法优化部分(更新α\mathbf{\alpha}α)与简化版SMO一致,区别在于优化过程中Platt SMO算法采用启发式算法进行α\alphaα对-(αi,αj)(\alpha_i...原创 2019-03-10 00:46:28 · 336 阅读 · 0 评论 -
读书笔记 - 机器学习实战 - 6支持向量机(1)
注意:逻辑回归的标签是0和1,而SVM的标签是-1和1。当分隔超平面确定后,余量表示为:y(wTx+b)>0y \left(\mathbf{w}^\mathrm{T}\mathbf{x} + b \right) > 0y(wTx+b)>0SVM是通过最大化支持向量的余量,求解w\mathbf{w}原创 2019-02-21 17:08:25 · 381 阅读 · 2 评论 -
读书笔记 - 机器学习实战 - 5 逻辑回归
5 逻辑回归(Logistic regression)逻辑回归(logistic regression)步骤:收集数据 准备:由于需要计算距离,输入数据必需是数值型,最好是结构化数据 分析: 训练:寻找用于分类的最优系数 测试:当训练完成后,分类速度极快 使用: 本章涉及优化算法:梯度提升(gradient ascent)和随机梯度提升(stochastic gradien...原创 2019-02-16 11:35:48 · 302 阅读 · 0 评论 -
读书笔记 - 机器学习实战 - 4 利用概率理论进行分类:朴素贝叶斯
4 朴素贝叶斯(Classifying with probability theory: naive Bayes)软判决:最佳判别及其概率估计4.1 贝叶斯决策(Classifying with Bayesian decision theory)朴素贝叶斯(贝叶斯决策理论的一个分支)优点:能处理样本量小,多分类问题 缺点:对输入数据如何表示敏感 适用范围:离散值 两类数据,c1和...原创 2019-02-11 00:41:36 · 8104 阅读 · 0 评论 -
读书笔记 - 机器学习实战 - 3 决策树
3 决策树(Splitting datasets one feature at a time: decision trees)3.1 构建决策树(Tree construction)决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。决策树是对数据进行分类,以此达到预测的目的。该决策树方法先根据训练集数据形成决策树,如果该树不能对所有...原创 2019-02-06 22:05:24 · 366 阅读 · 1 评论 -
读书笔记 - 机器学习实战 - 2 k-最近邻分类
第2章 k-最近邻分类2.1 利用距离分类(Classifying with distance measurements)K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。K最近邻是指kkk个最近邻居,即每个样本都由它最邻近的kkk个邻居中的多数派决定,kkk通常小于20。优点:高准确率,对异常值不敏感,对数据无须假设缺点:计算复杂,消耗...原创 2019-01-31 09:04:01 · 324 阅读 · 0 评论 -
读书笔记 - 机器学习实战 - 1.3 机器学习主要任务
1.3 Key tasks of machine learning机器学习任务分类有监督学习分类K近邻朴素贝叶斯SVM决策树回归线性回归局部加权线性回归岭回归Lasso回归无监督学习聚类K均值DBSCAN密度估计期望最大化Parzen窗...原创 2019-01-28 17:45:27 · 206 阅读 · 0 评论