zhuangV587-CSDN博客

转载周志华《Machine Learning》学习笔记 3 ——假设检验、方差与偏差

在上两篇中，我们介绍了多种常见的评估方法和性能度量标准，这样我们就可以根据数据集以及模型任务的特征，选择出最合适的评估和性能度量方法来计算出学习器的“测试误差“。但由于“测试误差”受到很多因素的影响，例如：算法随机性(例如常见的K-Means)或测试集本身的选择，使得同一模型每次得到的结果不尽相同，同时测试误差是作为泛化误差的近似，并不能代表学习器真实的泛化性能，那如何对单个或多个学习器在不同或相...

2018-06-12 11:11:34 642

转载周志华《Machine Learning》学习笔记 12 ——降维与度量学习

上篇主要介绍了几种常用的聚类算法，首先从距离度量与性能评估出发，列举了常见的距离计算公式与聚类评价指标，接着分别讨论了K-Means、LVQ、高斯混合聚类、密度聚类以及层次聚类算法。K-Means与LVQ都试图以类簇中心作为原型指导聚类，其中K-Means通过EM算法不断迭代直至收敛，LVQ使用真实类标辅助聚类；高斯混合聚类采用高斯分布来描述类簇原型；密度聚类则是将一个核心对象所有密...

2018-06-11 21:11:32 546

转载周志华《Machine Learning》学习笔记 11 ——聚类

上篇主要介绍了一种机器学习的通用框架–集成学习方法，首先从准确性和差异性两个重要概念引出集成学习“好而不同”的四字真言，接着介绍了现阶段主流的三种集成学习方法：AdaBoost、Bagging及Random Forest，AdaBoost采用最小化指数损失函数迭代式更新样本分布权重和计算基学习器权重，Bagging通过自助采样引入样本扰动增加了基学习器之间的差异性，随机森林则进一步引...

2018-06-11 20:57:00 317

转载周志华《Machine Learning》学习笔记 10 ——集成学习

上篇主要介绍了鼎鼎大名的EM算法，从算法思想到数学公式推导（边际似然引入隐变量，Jensen不等式简化求导），EM算法实际上可以理解为一种坐标下降法，首先固定一个变量，接着求另外变量的最优解，通过其优美的“两步走”策略能较好地估计隐变量的值。本篇将继续讨论下一类经典算法–集成学习。9、集成学习顾名思义，集成学习（ensemble learning）指的是将多个学习器进行...

2018-06-11 20:46:53 402

转载周志华《Machine Learning》学习笔记 9 ——EM算法

上篇主要介绍了贝叶斯分类器，从贝叶斯公式到贝叶斯决策论，再到通过极大似然法估计类条件概率，贝叶斯分类器的训练就是参数估计的过程。朴素贝叶斯则是“属性条件独立性假设”下的特例，它避免了假设属性联合分布过于经验性和训练集不足引起参数估计较大偏差两个大问题，最后介绍的拉普拉斯修正将概率值进行平滑处理。本篇将介绍另一个当选为数据挖掘十大算法之一的EM算法。8、EM算法 EM（Ex...

2018-06-11 20:42:09 283

转载周志华《Machine Learning》学习笔记 8 —— 贝叶斯分类器

上篇主要介绍和讨论了支持向量机。从最初的分类函数，通过最大化分类间隔，max(1/||w||)，min(1/2||w||^2)，凸二次规划，朗格朗日函数，对偶问题，一直到最后的SMO算法求解，都为寻找一个最优解。接着引入核函数将低维空间映射到高维特征空间，解决了非线性可分的情形。最后介绍了软间隔支持向量机，解决了outlier挤歪超平面的问题。本篇将讨论一个经典的统计学习算法–贝叶斯...

2018-06-11 20:32:51 269

转载周志华《Machine Learning》学习笔记 7 ——支持向量机

写在前面的话：距离上篇博客竟过去快一个月了，写完神经网络博客正式进入考试模式，几次考试+几篇报告下来弄得心颇不宁静了，今日定下来看到一句鸡血：Tomorrow is another due！也许生活就需要一些deadline~~ 上篇主要介绍了神经网络。首先从生物学神经元出发，引出了它的数学抽象模型–MP神经元以及由两层神经元组成的感知机模型，并基于梯度下降的方法描述了感...

2018-06-11 20:19:07 360

转载周志华《Machine Learning》学习笔记 6 —— 神经网络

上篇主要讨论了决策树算法。首先从决策树的基本概念出发，引出决策树基于树形结构进行决策，进一步介绍了构造决策树的递归流程以及其递归终止条件，在递归的过程中，划分属性的选择起到了关键作用，因此紧接着讨论了三种评估属性划分效果的经典算法，介绍了剪枝策略来解决原生决策树容易产生的过拟合问题，最后简述了属性连续值/缺失值的处理方法。本篇将讨论现阶段十分热门的另一个经典监督学习算法–神经网络（n...

2018-06-11 20:10:42 568

转载周志华《Machine Learning》学习笔记 5 —— 决策树

上篇主要介绍和讨论了线性模型。首先从最简单的最小二乘法开始，讨论输入属性有一个和多个的情形，接着通过广义线性模型延伸开来，将预测连续值的回归问题转化为分类问题，从而引入了对数几率回归，最后线性判别分析LDA将样本点进行投影，多分类问题实质上通过划分的方法转化为多个二分类问题进行求解。本篇将讨论另一种被广泛使用的分类算法–决策树（Decision Tree）。4、决策树4.1 决策树基...

2018-06-11 19:59:15 227

转载周志华《Machine Learning》学习笔记 4 —— 线性模型

笔记的前一部分主要是对机器学习预备知识的概括，包括机器学习的定义/术语、学习器性能的评估/度量以及比较，本篇之后将主要对具体的学习算法进行理解总结，本篇则主要是第3章的内容–线性模型。3、线性模型谈及线性模型，其实我们很早就已经与它打过交道，还记得高中数学必修3课本中那个顽皮的“最小二乘法”吗？这就是线性模型的经典算法之一：根据给定的（x，y）点对，求出一条与这些点拟合...

2018-06-11 19:45:03 572

转载周志华《Machine Learning》学习笔记 2 ——性能度量

本篇主要是对第二章剩余知识的理解，包括：性能度量、比较检验和偏差与方差。在上一篇中，我们解决了评估学习器泛化性能的方法，即用测试集的“测试误差”作为“泛化误差”的近似，当我们划分好训练/测试集后，那如何计算“测试误差”呢？这就是性能度量，例如：均方差，错误率等，即“测试误差”的一个评价标准。有了评估方法和性能度量，就可以计算出学习器的“测试误差”，但由于“测试误差”受到很多因...

2018-06-11 15:46:33 477

转载周志华《Machine Learning》学习笔记 1 ——绪论

机器学习是目前信息技术中最激动人心的方向之一，其应用已经深入到生活的各个层面且与普通人的日常生活密切相关。本文为清华大学最新出版的《机器学习》教材的Learning Notes，书作者是南京大学周志华教授，多个大陆首位彰显其学术奢华。本篇主要介绍了该教材前两个章节的知识点以及自己一点浅陋的理解。1 绪论傍晚小街路面上沁出微雨后的湿润，和熙的细风吹来，抬头看看天边的晚霞，嗯，明天又是一个好天气。走到...

2018-06-11 15:44:25 339

原创笔记：机器学习——吴恩达第九周

课程目录第九周十五、异常检测(Anomaly Detection)15.1 问题的动机15.2 高斯分布15.3 算法15.4 开发和评价一个异常检测系统15.5 异常检测与监督学习对比15.6 选择特征15.7 多元高斯分布（选修）15.8 使用多元高斯分布进行异常检测（选修）十六、推荐系统(Recommender Systems)16.1 问题形式化16.2 基于内容的推荐系统16.3 协同过...

2018-06-10 20:50:36 889

原创笔记：机器学习——吴恩达第八周

课程目录第八周十三、聚类(Clustering)13.1 无监督学习：简介13.2 K-均值算法13.3 优化目标13.4 随机初始化13.5 选择聚类数十四、降维(Dimensionality Reduction)14.1 动机一：数据压缩14.2 动机二：数据可视化14.3 主成分分析问题14.4 主成分分析算法14.5 选择主成分的数量14.6 重建的压缩表示14.7 主成分分析法的应用建议...

2018-06-10 20:08:30 781

原创笔记：机器学习——吴恩达第七周

课程目录第7周十二、支持向量机(Support Vector Machines)12.1 优化目标12.2 大边界的直观理解12.3 数学背后的大边界分类（选修）12.4 核函数112.5 核函数212.6 使用支持向量机笔记内容十二、支持向量机(Support Vector Machines) 12.1 优化目标笔记内容到目前为止,你已经见过一系列不同的学习算法。在监督学习中，许多学习算法的性...

2018-06-10 13:46:58 660 1

原创笔记：机器学习——吴恩达第六周

课程目录第六周十、应用机器学习的建议(Advice for Applying Machine Learning)10.1 决定下一步做什么10.2 评估一个假设10.3 模型选择和交叉验证集10.4 诊断偏差和方差10.5 正则化和偏差/方差10.6 学习曲线10.7 决定下一步做什么十一、机器学习系统的设计(Machine Learning System Design)11.1 首先要做什么11...

2018-06-04 17:07:50 773

原创笔记：机器学习——吴恩达第五周

课程目录第五周九、神经网络的学习(Neural Networks: Learning)9.1 代价函数9.2 反向传播算法9.3 反向传播算法的直观理解9.4 实现注意：展开参数9.5 梯度检验9.6 随机初始化9.7 综合起来9.8 自主驾驶笔记内容：九、神经网络的学习(Neural Networks: Learning) 9.1 代价函数首先引入一些便于稍后讨论的新标记方法：假设神经网络的...

2018-06-03 20:44:51 515

原创笔记：机器学习——吴恩达第四周

课程目录第四周第八、神经网络：表述(Neural Networks: Representation)8.1 非线性假设8.2 神经元和大脑8.3 模型表示18.4 模型表示28.5 样本和直观理解18.6 样本和直观理解II8.7 多类分类笔记内容：第八、神经网络：表述(Neural Networks: Representation) 8.1 非线性假设我们之前学的，无论是线性回归还是逻辑回归都...

2018-06-02 21:35:18 496

原创笔记：机器学习——吴恩达第三周

课程目录第三周六、逻辑回归(Logistic Regression)6.1 分类问题6.2 假说表示6.3 判定边界6.4 代价函数6.5 简化的成本函数和梯度下降6.6 高级优化6.7 多类别分类：一对多七、正则化(Regularization)7.1 过拟合的问题7.2 代价函数7.3 正则化线性回归7.4 正则化的逻辑回归模型笔记内容六、逻辑回归(Logistic Regression) 6...

2018-06-02 20:10:10 582

原创笔记：机器学习——吴恩达第二周

课程目录第二周四、多变量线性回归(Linear Regression with Multiple Variables)4.1 多维特征4.2 多变量梯度下降4.3 梯度下降法实践1-特征缩放4.4 梯度下降法实践2-学习率4.5 特征和多项式回归4.6 正规方程4.7 正规方程及不可逆性（选修）五、Octave教程(Octave Tutorial)5.1 基本操作5.2 移动数据5.3 计算数据5...

2018-06-01 11:21:17 728

原创笔记：机器学习——吴恩达第一周

课程目录第一周一、引言(Introduction)1.1 欢迎1.2 机器学习是什么？1.3 监督学习1.4 无监督学习二、单变量线性回归(Linear Regression with One Variable)2.1 模型表示2.2 代价函数2.3 代价函数的直观理解I2.4 代价函数的直观理解II2.5 梯度下降2.6 梯度下降的直观理解2.7 梯度下降的线性回归2.8 接下来的内容三、线性...

2018-05-30 11:18:49 363

原创笔记：机器学习——吴恩达序

前言该笔记是参考其他人的笔记与资料，精炼出感觉对自己有用的，加上其他补充的扩展知识和自己的心得收获，以方便自己以后回顾和学习。(在此十分感谢中国海洋大学 2014 级博士生黄海广在网上分享提供的资料）课程概述：Machine Learning(机器学习)是研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智...

2018-05-29 16:14:14 331

zhuangV587的博客