样本/示例:一个事件或者对象,这里的是一个西瓜
属性/特征:事件或者对象的某方面的表现或性质,比如西瓜的色泽,根蒂,敲声
属性值:属性的取值,比如色泽属性可以取青绿、乌黑
属性空间/样本空间/输入空间:整个属性张成的空间,比如把上述的三个属性在一个三维坐标中表示出
一个西瓜的三位空间,每一个西瓜都可以在在这个空间中找到自己的位置。
特征向量:空间中的每一个点都对应一个坐标向量,所以每一个样本也可以称为特征向量
训练数据:用于训练的数据
训练样本:训练数据中的每一一个样本
标记空间/输出空间:所有输出的集合
分类:预测的是离散值
回归:预测的是连续值
二分类:只涉及两个类别的任务,其中一个称为正类,另一个为负类
多分类:
聚类:训练集中的样本分成若干个组,每一组称为一个‘簇’
监督学习:有标记信息,(分类,回归)
无监督学习:无标记信息(聚类)
泛化能力:学得的模型能够适用于新样本的能力
假设空间
归纳:从特殊到一般(广义归纳:相当于从样本中学习。狭义归纳:从训练集中学的概念,因此称为概念学习)
演绎:从一般到特殊
概念学习:最基本的就是布尔概念学习
假设集合/版本空间:有多个假设与训练集一致,即与训练集一致
没有免费的午餐定理NFL:所有的学习算法总误差和期望值与算法无关。
过拟合:把训练样本的一些自身特点当做了所有样本的都具有的一般性质
欠拟合:对训练样本的一般性质尚未学好
任何学习算法都有针对过拟合的措施,但过拟合是无法完全避免的。
证明过拟合无法避免:
[P].[NP] 的概念参考:
https://blog.csdn.net/sp_programmer/article/details/41749859
1.机器学习面临的是一个NP或更难的问题,即∃NP;
2.有效的算法需在多项式时间内运行完成,即∃P;
3.当可彻底避免过拟合时,通过最小化经验误差就可获得最优解,即P=NP;
4.但实际上P≠NP;
5.过拟合无法避免。
评估误差的方法:
通过对模型的泛化误差进行评估,选择泛化误差最小的
泛化误差只能通过模型测试集上的测试误差求得
训练集与测试集应互斥
对数据集的划分方法
留出法:直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T,即D=S∪T,S∩*T=*∅。
特点:
1.直接划分数据
2.数据划保持数据分布的一致性,避免因数据划分引入额外的偏差—>训练集和测试集分层采样
3.保证数据的稳定性->若干次随机划分数据集,重复进行试验评估后取平均值
交叉验证法:先将数据集D分为k个大小相似的互斥子集,即D=D1∪D2∪*…∪Dk*;Di∩Dj=∅(i≠j)
交叉验证法得到的结果是均值的均值,即p个“k个结果的均值”的均值,因此交叉验证法又可以叫做p次k折交叉验证。
特点:
这样做每个子集都会当测试集,这样得到的结果更加准确。
极限情况下,每次都只取一个样本当测试集,这会大大正真加宝贵的计算资源负担
自助法:对有m个样本的数据集D,按如下方式采样产生数据集D’:每次随机取一个样本拷贝进D’,取m次(有放回取m次)。
按此方法,保证了D’和D的规模一致。但D’虽然也有m个样本,可其中中会出现重复的样本,而D中会存在*D’*采样没有采到的样本,这些样本就留作测试集。
某样本在m次采样中均不会被采到的概率是: [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aob1If2r-1626185710679)(https://www.zhihu.com/equation?tex=%281-1%2Fm%29%5Em)] ,取极限可得0.368
特点:
训练集与数据集规模一致;数据集小、难以有效划分训练集和测试集时效果显著;能产生多个不同的训练集;
缺点:改变了训练集的样本分布,引入估计偏差。所以对于数量大的数据集还是采用留出法和交叉验证法比较合适
超参数设定的不同会影响最终模型的性能
测试集:来测试模型的泛化性能,
在训练集中划分一部分数据作为验证集,基于验证集上的性能来进行模型选择和调参。