机器学习期末复习

文章探讨了贝叶斯聚类模型在处理高维数据时如何避免维度陷阱,提出了一种新的潜在混合模型,该模型在理论上和实践中都显示了优越性能,特别是在scRNAseq数据的细胞类型推断中。
摘要由CSDN通过智能技术生成

什么是机器学习,机器学习的目标

机器学习是一门研究如何通过计算的手段,利用经验来改善系统自身性能的学科。

机器学习的目标是开发出能够自动学习、改进和适应的计算机系统,以帮助解决各种复杂的问题,并提供准确的预测、智能的决策和洞察力。


什么是归纳偏好?

机器学习算法在学习过程中对某种类型假设的偏好称为归纳偏好,可以看作学习算法在一个可能很庞大的假设空间对假设进行选择的启发式或“价值观”。


过拟合与欠拟合

过拟合:指学习器把训练样本学的太好了,导致把训练样本的特点当做所有潜在样本都会有的一般性质

解决方法:无法避免只能缓解,使用正则化方法

欠拟合:指对训练样本的一般性质尚未学好。

解决方法:在决策树学习中拓展分支,在神经网络学习中增加训练轮数


评估方法

留出法:将数据集换分为两个互斥部分,一部分作为训练集,一部分作为测试集。通常训练集和测试集比例为70%:30%。

交叉验证法:将数据集D划分为k个大小相似的互斥子集,image-20230618161730100image-20230618161730100,每个子集从D中分层采样得到;其中k-1个子集作为训练集,1个作为测试集;总共得到k组训练/测试集,最终返回k次训练/测试结果的均值。

自助法:以自主采样为基础,每次随机从数据集D(样本数m个)中挑选一个样本,放入D’中,然后将样本放回D中,重复m次后,得到了包含m个样本的数据集。


错误率与精度

错误率:分类错误的样本数占样本总数的比例

精度 :分类正确的样本数占样本总数的比例


线性模型

x1到xd是d个属性描述的示例,一般形式:
                                                  img


纯度

决策树分支结点所包含样本属于同一类别的比例


预剪枝、后剪枝

指决策树生成过程中,对每个节点在划分前进行估计,如果当前节点的划分不能带来决策树泛化性能提升,则停止划分,并将当前节点标记为叶节点

先从训练集生成一颗完整的决策树,然后自底向上的对非叶节点进行考察,若该节点对应的子树替换为叶节点,能带来决策树泛化性的提升,则将该子树替换为叶节点


LDA线性判别分析

给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影,尽可能接近,异类样例的投影尽可能远离,在有新样本进行分类时,将其投影到这条直线上,根据投影点的位置来确定新样本的类别
                                                  img


聚类任务

​                                                    在这里插入图片描述


支持向量、间隔

划分数据的决策边界就叫做超平面。离这个超平面最近的点的集合就是”支持向量”,两个异类支持向量到超平面的距离之和叫做间隔
支持向量图形指在支持向量机中绘制的可用于可视化决策边界和支持向量的图形。
                                                   img


信息增益,信息增益率,基尼系数

信息增益是用来选择划分属性的一种手段,信息增益对可取值数目较多的属性有所偏好。(ID3使用)

增益率:先从候选划分属性中找出信息增益高于平均水平的,再从中选取增益率最高的。(C4.5算法使用)

基尼系数:在侯选属性集合中,选取那个使划分后基尼系数最小的属性。(CART算法使用)


集成学习

对于训练集数据,通过构建和训练多个学习器来完成学习任务,以达到博采众长的目的。


Boosting伪代码

                                                   img


Bagging伪代码

                                                   img


决策树算法

image-20230618161730100


贝叶斯分类器核心思想

基于已知的先验知识和观测到的数据,通过计算后验概率来进行分类决策,把以前样本中每个类别的概率算出来,再乘上所有新样本的属性属于对应类别的概率,最后比较大小得概率大值。


算法改进

参考这个博主的文章,机器学习期末复习 | 胡小宁的博客 (1905060202.github.io)在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
每个属性增加一个出现的次数,保证每一项概率不为0在这里插入图片描述


问答题

逃离维度的诅咒 基于贝叶斯模型的聚类,出自重要期刊JMLR,2023/4/23出版。文中提到了贝叶斯聚类模型在高维数据中的应用,以及在观测维数增加时后验推理的行为。此外,还提到了潜在混合的贝叶斯聚类模型如何避免高维陷阱,并在实际应用中表现出良好的性能。文中创新点为

  • 提出了一种基于贝叶斯模型的聚类方法,适用于高维数据,并且可以避免高维陷阱的问题。
  • 通过研究固定样本量和增加数据维数的非标准设置下的随机分割后验,解释了后验推理在观测维数增加时的行为
  • 提出了一种潜在混合的贝叶斯聚类模型,适用于可扩展的后验推理,并且可以避免高维陷阱。该方法在模拟研究和基于scRNA seq推断细胞类型的应用中表现出良好的性能。
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值