【22-23春学期】AI作业3

最新推荐文章于 2024-08-15 16:46:21 发布

吵闹の雪

最新推荐文章于 2024-08-15 16:46:21 发布

阅读量104

点赞数 1

文章标签：人工智能数据挖掘机器学习

本文链接：https://blog.csdn.net/winter_poi1120/article/details/129771720

版权

集成学习：集成学习是一种机器学习技术，它利用多个分类器（或其他预测模型）的输出，以某种方式组合这些输出以获得更好的预测结果。集成学习可以提高预测准确率，同时还可以减少过度拟合。在数据挖掘、推荐系统等领域有广泛应用，可以用于分类问题集成，回归问题集成，特征选取集成，异常点检测集成等。
支持向量机：支持向量机是一种常见的机器学习算法，主要用于分类与回归分析。基本思想是在特征空间中寻找一个最优超平面，将不同类别的样本分开，并最大化所有样本点到该超平面的距离。模型具有较高的泛化能力，可以处理高维数据，能够处理非线性问题等。
软间隔：对于线性可分的数据集，为了避免过拟合，在支持向量机中允许一些数据点偏离超平面，即允许一些数据点的分类间隔小于1。通常通过引入惩罚项（如松弛因子）来实现。
核函数：核函数是一种将低维数据映射到高维空间的函数。在一些机器学习算法中，核函数可以用来将低维数据进行非线性变换，将其转换到高维空间中，从而使得数据在高维空间中可以更容易地被线性分类器进行分割。
VC维：VC维的基本思想是衡量一个分类器或回归器是否能够对任意样本进行正确分类或预测。VC维定义了一个模型可以表示的最大样本量，并且能够在该样本量范围内正确分类或预测所有可能的样本。VC维越大，表示模型具有更强的表示能力，能够拟合更多的数据。而VC维越小，表示模型具有更弱的表示能力，很可能会出现欠拟合现象。
生成式模型：由数据学习联合概率密度分布P(X,Y)，对X和Y的联合分布概率p(x,y)建模，然后求出条件概率分布P(Y|X)作为预测的模型，即生成模型。基本思想是首先建立样本的联合概率概率密度模型P(X,Y)，然后再得到后验概率P(Y|X)，再利用它进行分类，通过贝叶斯公式来求得P(Y|X)，然后选取使得P(Y|X)最大的Y。
判别式模型：由数据直接学习决策函数Y=f(X)或者对条件概率分布P(Y|X)建模，即判别模型。基本思想是有限样本条件下建立判别函数，不考虑样本的产生模型，直接研究预测模型。判别式模型是对条件概率建模，根据训练数据得到分类函数和分界面，学习不同类别之间的最优边界，无法反映训练数据本身的特性，能力有限，其只能告诉我们分类的类别。
生成式模型：
优点：生成给出的是联合分布，不仅能够由联合分布计算条件分布，还可以给出其他信息。生成式模型收敛速度比较快，即当样本数量较多时，生成式模型能更快地收敛于真实模型。生成式模型能够应付存在隐变量的情况。
缺点：联合分布需要更多的样本和更多计算，为了更准确估计类别条件分布，需要增加样本的数目，有时会造成计算资源的浪费。
判别式模型：
优点：可以对数据进行各种程度上的抽象、定义特征并使用特征，从而简化学习问题。节省计算资源，需要的样本数量也少于生成模型。直接面对预测，准确率往往较生成模型高。判别方法寻找不同类别之间的最优分类面，反映的是异类数据之间的差异。允许对输入数据进行抽象，从而简化学习问题。
缺点：判别式模型的收敛速度较慢，并且无法应对存在隐变量的情况。
监督学习、无监督学习，与生成式模型、判别式模型没有固定的联系，对于监督学习，可以是生成式模型，也可以是判别式模型；在无监督学习中，无法提供监督信号，因此无监督学习基本上都是生成式模型。
分类属于监督学习，聚类属于无监督学习。KNN是分类算法，K-means是聚类算法。