CSU人工智能与模式识别复习-绪论

予微胡不归

于 2022-10-26 09:09:55 发布

阅读量1k

点赞数

分类专栏：人工智能与模式识别文章标签：人工智能机器学习深度学习

本文链接：https://blog.csdn.net/xx15367492244/article/details/127525840

版权

人工智能与模式识别专栏收录该内容

2 篇文章 5 订阅

订阅专栏

CSU人工智能与模式识别复习-绪论

一、概念解析ConceptsAnalysis：

样本Sample：一个具体的研究（客观）对象；
模式Pattern：对客体（研究对象）特征的描述（定量的或结构的描述），是取自客观世界的某一样本的测量值的集合或综合；
特征Feature：能描述模式的特性的量（或测量值），通常使用使用一个向量表示，称之为特征向量；
模式类Class：具有某些共同特性的模式的集合；
有监督学习SupervisedLearning：从给定输入和输出的训练数据集中学习输入和输出之间的映射函数，然后利用该映射函数预测出测试样本的输出值，其中训练集中的每个样本都由输入和对应的输出(也称之为label)组成(labeled data)，主要包括回归Regression（预测目标值连续）和分类Classification（预测目标值离散）两种；
无监督学习UnsupervisedLearning：发现数据中的隐含结构，其中的数据样本未给定对应的目标值(unlabeled data)，主要包括聚类Clustering（将相似的样本划分为不同的组）、密度估计DensityEstimation（找出输入空间的数据分布状况）和特征提取FeatureExtraction、降维DimensionalityReduction；
对于有监督学习，采用试错的思想，通过比较当前预测结果与标签的差异，不断调整决策面；对于无监督学习，则设计距离函数或相似度函数来衡量样本的差异；
欠拟合OweFitting：模型没有很好地捕捉到数据特征，不能够很好地拟合数据；过拟合OverFitting：一味追求对训练数据的预测能力，模型的复杂程度高于真实模型，泛化能力差；
正则化项一般是模型复杂度的单调递增函数；
交叉验证的基本思想是把给定的数据切分为训练集和测试集，反复进行训练、测试及模型选择，主要分为三种：①简单验证（Hold-Out Method）：随机地将样本数据分为训练集和测试集，无说服力；②K折交叉验证（K-fold cross validation）：随机将样本分为K个互不相交的大小相同的子集，用K-1个子集的数据训练模型，剩下的子集做测试，对K个子集重复上述过程，选出K次评测中平均测试误差最小的模型；③留一法（Leave-One-Out）： K等于数据集中数据的个数，每次只用一个作测试集，剩下的全部作为训练集，得出的结果与训练整个测试集的期望值最为接近，成本庞大；
基于机器学习的模式识别系统见框图。

二、核心知识CoreKoneledge：

模式识别的三大任务：①模式采集；②特征提取与特征选择；③类型判别；
现代机器学习方法基本都属于统计学习；
机器学习定义：对于某类任务T和性能度量P，一个计算机程序被认为可以从经验E中学习是指，通过经验E改进后，它在任务T上由性能度量P衡量的性能有所提升；
模式识别的难点：①特征的选取与形式化表示；②分类规则难以建立；
通过机器学习算法，可以根据历史的经验数据学习获得决策面参数，从而自动找到分类的决策面，该过程为一个不断试错的过程；
机器学习的先验知识：①平滑先验：本质上即扩大用于预测的数据信息的选择范围，从而对结果产生平滑作用；②局部不变性先验：对应输入A的答案一般对于A的邻域同样适用；
KNN（K-NearestNeighbor，K近邻）算法：本质上即取距离最近的K个数据的主要类别作为最终的预测结果，与其他机器学习算法不同，KNN不需要离线训练，对于输入数据直接计算其与训练集中所有数据的距离；
一般而言，机器学习算法都对应一个目标函数，算法便是对这个目标函数进行优化，从大量数据中自动搜索使得目标函数最小化的参数配置，学习的效果主要取决于所能获得的训练数据；
常用的机器学习算法：► 线性回归（回归问题） ► 朴素贝叶斯 ► K近邻（KNN） ► 支持向量机（SVM） ► 逻辑回归 ► 决策树 ► 神经网络（分类、聚类、深度学习） ► K均值（KMEANS）（聚类） ► 提升法和Adaboost（集成学习） ► Bagging和随机森林（集成学习）；
深度学习在特征提取方面的最大优势是：①建立了端到端（从原始数据而非提取特征到最终结果）的识别过程；②不需要人工提取特征；
CNN（ConvolutionNeuralNetwork，卷积神经网络）的特点：结构简单、训练参数少、高适应性，同时避免了复杂的预处理过程，其主要包括卷积层、池化层和全连接层；
在采样层面，对于不平衡数据有两种常见处理方法：①下采样（欠采样）：从多数类样本中随机删除一些样本与少数类样本一起作为训练数据集；②上采样（过采样）：从少数类样本中多次有放回随机采样，与多数类样本组成训练集，少数类采样的数量要大于原数量；
通常将样本数据划分为训练集和测试集，训练的过程即为学习算法不断优化模型以期最小化结构风险的过程，结构风险=损失项LossTerm+正则项RegularizationTerm，损失项即损失函数，又称经验风险函数、误差，用来评价模型的预测值与真实值的不一致程度，正则项用来避免过拟合，提升模型的泛化能力；
不同的学习算法损失函数的定义不同，如果只考虑经验风险，容易过拟合；
机器学习的评价指标与其他常用评价指标：