CSU人工智能与模式识别复习-绪论
一、概念解析ConceptsAnalysis:
- 样本Sample:一个具体的研究(客观)对象;
- 模式Pattern:对客体(研究对象)特征的描述(定量的或结构的描述),是取自客观世界的某一样本的测量值的集合或综合;
- 特征Feature:能描述模式的特性的量(或测量值),通常使用使用一个向量表示,称之为特征向量;
- 模式类Class:具有某些共同特性的模式的集合;
- 有监督学习SupervisedLearning:从给定输入和输出的训练数据集中学习输入和输出之间的映射函数,然后利用该映射函数预测出测试样本的输出值,其中训练集中的每个样本都由输入和对应的输出(也称之为label)组成(labeled data),主要包括回归Regression(预测目标值连续)和分类Classification(预测目标值离散)两种;
- 无监督学习UnsupervisedLearning:发现数据中的隐含结构,其中的数据样本未给定对应的目标值(unlabeled data),主要包括聚类Clustering(将相似的样本划分为不同的组)、密度估计DensityEstimation(找出输入空间的数据分布状况)和特征提取FeatureExtraction、降维DimensionalityReduction;
- 对于有监督学习,采用试错的思想,通过比较当前预测结果与标签的差异,不断调整决策面;对于无监督学习,则设计距离函数或相似度函数来衡量样本的差异 ;
- 欠拟合OweFitting:模型没有很好地捕捉到数据特征,不能够很好地拟合数据;过拟合OverFitting:一味追求对训练数据的预测能力,模型的复杂程度高于真实模型, 泛化能力差;
- 正则化项一般是模型复杂度的单调递增函数;
- 交叉验证的基本思想是把给定的数据切分为训练集和测试集,反复进行训练、测试及模型选择,主要分为三种:①简单验证(Hold-Out Method):随机地将样本数据分为训练集和测试集,无说服力;②K折交叉验证(K-fold cross validation):随机将样本分为K个互不相交的大小相同的子集,用K-1个子集的数据训练模型,剩下的子集做测试,对K个子集重复上述过程,选出K次评测中平均测试误差最小的模型;③留一法(Leave-One-Out): K等于数据集中数据的个数,每次只用一个作测试集,剩下的全部作为训练集,得出的结果与训练整个测试集的期望值最为接近,成本庞大;
- 基于机器学习的模式识别系统见框图。
二、核心知识CoreKoneledge:
- 模式识别的三大任务:①模式采集;②特征提取与特征选择;③类型判别;
- 现代机器学习方法基本都属于统计学习;
- 机器学习定义:对于某类任务T和性能度量P,一个计算机程序被认为可以从经验E中学习是指,通过经验E改进后,它在任务T上由性能度量P衡量的性能有所提升;
- 模式识别的难点:①特征的选取与形式化表示;②分类规则难以建立;
- 通过机器学习算法,可以根据历史的经验数据学习获得决策面参数,从而自动找到分类的决策面,该过程为一个不断试错的过程;
- 机器学习的先验知识:①平滑先验:本质上即扩大用于预测的数据信息的选择范围,从而对结果产生平滑作用;②局部不变性先验:对应输入A的答案一般对于A的邻域同样适用;
- KNN(K-NearestNeighbor,K近邻)算法:本质上即取距离最近的K个数据的主要类别作为最终的预测结果,与其他机器学习算法不同,KNN不需要离线训练,对于输入数据直接计算其与训练集中所有数据的距离;
- 一般而言,机器学习算法都对应一个目标函数,算法便是对这个目标函数进行优化,从大量数据中自动搜索使得目标函数最小化的参数配置,学习的效果主要取决于所能获得的训练数据;
- 常用的机器学习算法:► 线性回归(回归问题) ► 朴素贝叶斯 ► K近邻(KNN) ► 支持向量机(SVM) ► 逻辑回归 ► 决策树 ► 神经网络(分类、聚类、深度学习) ► K均值(KMEANS)(聚类) ► 提升法和Adaboost(集成学习) ► Bagging和随机森林(集成学习);
- 深度学习在特征提取方面的最大优势是:①建立了端到端(从原始数据而非提取特征到最终结果)的识别过程;②不需要人工提取特征;
- CNN(ConvolutionNeuralNetwork,卷积神经网络)的特点:结构简单、训练参数少、高适应性,同时避免了复杂的预处理过程,其主要包括卷积层、池化层和全连接层;
- 在采样层面,对于不平衡数据有两种常见处理方法:①下采样(欠采样):从多数类样本中随机删除一些样 本与少数类样本一起作为训练数据集;②上采样(过采样):从少数类样本中多次有放回随机采样,与多数类样本组成训练集, 少数类采样的数量要大于原数量;
- 通常将样本数据划分为训练集和测试集,训练的过程即为学习算法不断优化模型以期最小化结构风险的过程,结构风险=损失项LossTerm+正则项RegularizationTerm,损失项即损失函数,又称经验风险函数、误差,用来评价模型的预测值与真实值的不一致程度,正则项用来避免过拟合,提升模型的泛化能力;
- 不同的学习算法损失函数的定义不同,如果只考虑经验风险,容易过拟合;
- 机器学习的评价指标与其他常用评价指标: