机器学习笔记
文章平均质量分 87
铁锤2号
干啥啥不会~
展开
-
贝叶斯,朴素贝叶斯的基础原理及例子
频率派和贝叶斯派频率派认为,样本所属的分布参数θ\thetaθ虽然是未知的,但是是固定的,可以通过样本对θ\thetaθ进行预估得到θ^\theta{\hat{}}θ^。贝叶斯派认为参数θ\thetaθ是一个随机变量,不是一个固定的值,在样本产生前,会基于经验或者其他方法对θ\thetaθ预先设定一个分布π(θ)\pi(\theta)π(θ),称之为先验分布。之后会根据样本对θ\thetaθ进行调整,修正,记为π(θ∣x1,x2,x3,……)\pi(\theta|x1,x2,x3,……)π(θ∣x1,x原创 2021-06-05 19:25:44 · 389 阅读 · 0 评论 -
kmeans的基础原理,损失函数以及例子
kmeans的原理kmeans的聚类的过程中涉及四个关键点:k值的选择(就是聚几个类,这是超参数,需要人为给定),初始值,距离度量方式,损失函数。第一,k值的选择由于是超参数的原因,所以k值的选择依据你需要聚类的数目进行选择了。第二,初始值传统的kmeans使用的是随机选择。也有算法的优化,后面总结。第三,距离度量方式距离度量方式最多的还是欧式距离。第四,损失函数聚类问题的损失函数就是各个样本向量到对应簇均值向量的均方误差,假设样本点(x1,x2,……,xn)需要被聚类为k个簇(C1,C原创 2021-06-05 11:51:06 · 5219 阅读 · 0 评论 -
西瓜书决策树预剪枝后剪枝过程详解
预剪枝概念:决策树生成过程中对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点记为叶结点,其类别标记为训练样例数最多的类别。我们直接看西瓜书上的例子,其中{1,2,3,6,7,10,14,15,16,17}为训练集,{4,5,8,9,11,12,13}为验证集。(1)在未划分前,根据训练集,类别标记为训练样例数最多的类别,由于训练集中的好瓜与坏瓜是相同多的类别,均为5,因此任选其中一类,书中选择了好瓜作为标记类别。当所有节点集中在根节点,所有训练集属于原创 2021-01-08 19:38:50 · 4420 阅读 · 4 评论 -
极大似然估计的直观含义
下周组会要讲朴素贝叶斯,朴素贝叶斯之前西瓜书上先是介绍了最大似然估计,但是我完全不知道那个理论的东西的到底能干嘛,然后找了一些资料看了下,最主要的是B站的一个视频,连接放在最后面。这个视频比较清楚的解释了极大似然估计到底是什么,它的含义是什么。视频链接:https://www.bilibili.com/video/av56378793?p=1&t=541极大似然估计Maximum likelihood estimation,简写就是MLE,其实在很多机器学习理论中都存在哈。首..原创 2020-12-11 11:05:18 · 1185 阅读 · 0 评论 -
从特征值,特征向量,对角矩阵,特征值分解到奇异值分解
写在前面:这篇博文可能更适合于学过线性代数的同学写作背景:最近开始看花书,第二章就讲到了上面几个概念,主要还是奇异值分解,在看的过程中查找了资料,就有了这篇博文。首先要明确几个概念:特征值,特征向量,对角矩阵。(为了回忆起这几个概念,我不得不拿起我买的二手考研资料,什么?你问一手的在哪?一手的被我考完卖了。)特征值,特征向量:设A是n阶矩阵,若存在常数λ及非零常数α,使得Aα=λα,称λ为矩阵A的一个特征值,α是属于特征值λ的矩阵A的一个特征向量。(这样读起来好像没啥用,下面会给一个例子来说明怎么算原创 2020-12-07 10:37:59 · 1792 阅读 · 0 评论