![](https://img-blog.csdnimg.cn/20210811125713548.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
监督学习
文章平均质量分 64
监督学习相关知识点
thisissally
这个作者很懒,什么都没留下…
展开
-
SVM(Support Vector Machines)
SVM(支持向量机)类型:二分类模型针对:线性不可分问题方法:通过核函数将实例中的特征映射为空间中的一些点,目标:画出一条线,最好的区分两类点适用情况:中小型数据、非线性、高维、分类问题思想:在无法线性分割高维数据的非线性问题中,希望用超平面这样一种类线性的方法来分割高维数据。这需要将数据一、相关概念-01-决策面/超平面:用于确定方向,样本特征是高维的-02-最优决策面:能完全分类的决策面-03-分类间隔:最优决策面前提下的虚线间隔-04-SVM最优解:最大的分类间隔下的情况,m原创 2021-07-29 13:29:54 · 105 阅读 · 0 评论 -
《西瓜书》集成学习
《西瓜书》集成学习总结一、认识集成学习1.集成怎样被个体影响?个体分类器的数目越多,集成的错误率越低2.目标:找到尽可能多的“好而不同”的个体学习器二、集成学习的类型1.Boosting(强依赖)【以AdaBoost为例】(1)思路:迭代计算损失函数,每一步都更新权重和样本分布,最终最小化指数损失函数。(2)侧重点:降低偏差。2.Bagging&Random Forest(非强依赖)(1)思路:自助采样(bootstrap sampling),基于每个采样集训练出一个学原创 2021-07-18 18:21:55 · 343 阅读 · 0 评论 -
KNN(k近邻算法)
一、思想物以类聚,人以群分。给定训练集,对于给定的测试集,计算它与训练集集中每个对象的距离。圈定距离最近的k个训练对象,作为测试对象的近邻。根据k个近邻的主要类别,确定测试对象的分类。(一)k(划分的类数)的确定k小:训练误差小,泛化误差大,对噪声敏感,模型复杂,容易发生过拟合过拟合:参数多,样本少,过度训练k大:训练误差大,泛化误差小,模型简单,容易发生欠拟合欠拟合:参数少,训练不到位try [3,20](二)距离的度量默认情况:欧氏距离文本分类:夹角余弦(三)类别的判原创 2021-07-28 21:23:03 · 89 阅读 · 0 评论 -
《西瓜书》决策树
一、决策树基本概念(一)组成部分:1.根节点:2.内部节点:属性测试3.叶节点:决策结果(二)基本思想:1.分而治之?2.递归?二、基本流程(一)根据属性划分样本(影响决策树尺寸,对泛化性能影响小)目标:1.选择划分属性的准则(1)信息增益(2)增益率(3)基尼系数2. 选择每个节点的最优划分属性3.根据每个节点的属性划分样本(二)剪枝处理(对决策树泛化性能影响大)1.目的2.类别三、其他-连续值与缺失值四、其他-多变量决策树...原创 2021-07-20 23:37:12 · 610 阅读 · 2 评论