【22-23春】AI作业2

  1. 结构风险最小化:结构风险最小化是为了防止过拟合而提出的策略。结构风险最小化等价于正则化,结构风险在经验风险上加上表示模型复杂度的正则项或罚项。结构风险最小化就是在保证分类精度的前提下,降低学习机器的VC维,可以使学习机器在整个样本集上的期望风险得到控制。结构风险最小化的策略认为结构风险最小的模型为最优模型,结构风险小需要经验风险和模型复杂度同时都小,结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测。

  1. 正则化:正则化是为了防止训练模型时,产生过拟合现象。在某种程度上,正则化等价于结构风险最小化。

  1. 线性回归:回归算法是用于连续型分布预测,针对的是数值型的样本。线性回归是利用数理统计中的回归分析,来确定两种或两种以上的变量间相互依赖的定量关系的一种统计分析方法。

  1. 逻辑斯蒂回归:逻辑斯蒂回归是一种经典的分类方法,属于对数线性模型,根据现有的数据对分类边界线建立回归公式,进行分类。在线性回归模型的基础上,使用sigmoid函数作为激励函数,将线性模型的任意输入映射到[0,1]区间,使其拥有概率意义,从而实现值到概率的转换。

  1. Sigmoid与SoftMax函数:

Sigmoid函数是一种在生物学中常见的S型函数,也被称为S型生长曲线。在深度学习中,由于其单调递增以及反函数的单调递增等性质,经常被用作神经网络的激活函数,将变量的输入映射到[0,1]区间中。Sigmoid函数经常用于将预测概率作为输出的模型,对每个神经元的输出进行了归一化。

SoftMax函数是用于多类分类问题的激活函数,在多类分类问题中,超过两个类标签则需要类成员关系。对于长度为K的任意实向量,SoftMax函数可以将其压缩成长度为K,值在[0,1]区间范围内,并且向量中元素总和为1的实向量。SoftMax函数确保较小的值具有较小的概率,不会直接丢弃,其分母结合了原始输出值的所有因子,这意味着Softmax函数获得的各种概率彼此相关。

  1. 决策树:是一种基本的分类与回归方法,基本原理是通过对一系列问题进行连续的逻辑判断,if/else的推导,最终实现相关决策。在分类问题中,表示基于特征对实例进行分类的过程,可以认为是if-then的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。

  1. 信息熵 条件熵 信息增益:

信息熵是信息杂乱程度的描述,常被用作一个系统的信息含量的量化指标,从而进一步用来作为系统方程优化的目标或参数选择的判据。是考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。具有单调性、非负性和累加性。

条件熵是指在某一条件下,随机变量的复杂度。定义为X给定条件下,Y的条件概率分布的熵对X的数学期望。

信息增益指的是信息熵和条件熵之间的差值,代表在某一条件下,信息复杂度(不确定性)减少的程度。

  1. 线性判别分析LDA:线性判别分析LDA是一种经典的二分类算法,监督学习的数据降维方法。主要思想是,以一种基于降维的方式将所有的样本映射到一维坐标轴上,然后设定一个阈值,将样本进行区分。投影时需要满足:尽可能多的保留数据样本的信息,即选择最大的特征是对应的特征向量所代表的方向;寻找使样本尽可能好分类的最佳投影方向;投影后使得同类样本尽可能接近,不同类羊背尽可能远离。

  1. 概率近似正确PAC:PAC理论是从概率的角度来衡量模型的正确率,给出了PAC可辨识,样本复杂度界,误差上界。“近似”是在取值上,只要和真实值的偏差小于一个足够小的值就认为“近似正确”;“可能”是在概率上只要“近似正确”的概率足够大就认为“可能近似正确”。

  1. 自适应提升AdaBoost:AdaBoost算法属于分类算法中的集成算法。是一种迭代算法,其核心思想是针对同一个训练集训练不同的弱分类器,然后将这些弱分类器集合起来,构成一个强分类器,作为最终的决策分类器。使用AdaBoost分类器可以排除一些不必要的训练数据特征,并将关键放在相应的训练数据上。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值