CSU人工智能与模式识别复习-绪论

CSU人工智能与模式识别复习-绪论

一、概念解析ConceptsAnalysis:

  1. 样本Sample:一个具体的研究(客观)对象;
  2. 模式Pattern:对客体(研究对象)特征的描述(定量的或结构的描述),是取自客观世界的某一样本的测量值的集合或综合;
  3. 特征Feature:能描述模式的特性的量(或测量值),通常使用使用一个向量表示,称之为特征向量;
  4. 模式类Class:具有某些共同特性的模式的集合;
  5. 有监督学习SupervisedLearning:从给定输入和输出的训练数据集中学习输入和输出之间的映射函数,然后利用该映射函数预测出测试样本的输出值,其中训练集中的每个样本都由输入和对应的输出(也称之为label)组成(labeled data),主要包括回归Regression(预测目标值连续)和分类Classification(预测目标值离散)两种;
  6. 无监督学习UnsupervisedLearning:发现数据中的隐含结构,其中的数据样本未给定对应的目标值(unlabeled data),主要包括聚类Clustering(将相似的样本划分为不同的组)、密度估计DensityEstimation(找出输入空间的数据分布状况)和特征提取FeatureExtraction、降维DimensionalityReduction;
  7. 对于有监督学习,采用试错的思想,通过比较当前预测结果与标签的差异,不断调整决策面;对于无监督学习,则设计距离函数或相似度函数来衡量样本的差异 ;
  8. 欠拟合OweFitting:模型没有很好地捕捉到数据特征,不能够很好地拟合数据;过拟合OverFitting:一味追求对训练数据的预测能力,模型的复杂程度高于真实模型, 泛化能力差;
    欠拟合与过拟合
  9. 正则化项一般是模型复杂度的单调递增函数;
    正则化项
  10. 交叉验证的基本思想是把给定的数据切分为训练集和测试集,反复进行训练、测试及模型选择,主要分为三种:①简单验证(Hold-Out Method):随机地将样本数据分为训练集和测试集,无说服力;②K折交叉验证(K-fold cross validation):随机将样本分为K个互不相交的大小相同的子集,用K-1个子集的数据训练模型,剩下的子集做测试,对K个子集重复上述过程,选出K次评测中平均测试误差最小的模型;③留一法(Leave-One-Out): K等于数据集中数据的个数,每次只用一个作测试集,剩下的全部作为训练集,得出的结果与训练整个测试集的期望值最为接近,成本庞大;
  11. 基于机器学习的模式识别系统见框图。
    基于机器学习的模式识别

二、核心知识CoreKoneledge:

  1. 模式识别的三大任务:①模式采集;②特征提取与特征选择;③类型判别;
  2. 现代机器学习方法基本都属于统计学习;
  3. 机器学习定义:对于某类任务T和性能度量P,一个计算机程序被认为可以从经验E中学习是指,通过经验E改进后,它在任务T上由性能度量P衡量的性能有所提升;
  4. 模式识别的难点:①特征的选取与形式化表示;②分类规则难以建立;
  5. 通过机器学习算法,可以根据历史的经验数据学习获得决策面参数,从而自动找到分类的决策面,该过程为一个不断试错的过程;
  6. 机器学习的先验知识:①平滑先验:本质上即扩大用于预测的数据信息的选择范围,从而对结果产生平滑作用;②局部不变性先验:对应输入A的答案一般对于A的邻域同样适用;
  7. KNN(K-NearestNeighbor,K近邻)算法:本质上即取距离最近的K个数据的主要类别作为最终的预测结果,与其他机器学习算法不同,KNN不需要离线训练,对于输入数据直接计算其与训练集中所有数据的距离;
  8. 一般而言,机器学习算法都对应一个目标函数,算法便是对这个目标函数进行优化,从大量数据中自动搜索使得目标函数最小化的参数配置,学习的效果主要取决于所能获得的训练数据;
  9. 常用的机器学习算法:► 线性回归(回归问题) ► 朴素贝叶斯 ► K近邻(KNN) ► 支持向量机(SVM) ► 逻辑回归 ► 决策树 ► 神经网络(分类、聚类、深度学习) ► K均值(KMEANS)(聚类) ► 提升法和Adaboost(集成学习) ► Bagging和随机森林(集成学习);
  10. 深度学习在特征提取方面的最大优势是:①建立了端到端(从原始数据而非提取特征到最终结果)的识别过程;②不需要人工提取特征;
  11. CNN(ConvolutionNeuralNetwork,卷积神经网络)的特点:结构简单、训练参数少、高适应性,同时避免了复杂的预处理过程,其主要包括卷积层、池化层和全连接层;
  12. 在采样层面,对于不平衡数据有两种常见处理方法:①下采样(欠采样):从多数类样本中随机删除一些样 本与少数类样本一起作为训练数据集;②上采样(过采样):从少数类样本中多次有放回随机采样,与多数类样本组成训练集, 少数类采样的数量要大于原数量;
  13. 通常将样本数据划分为训练集和测试集,训练的过程即为学习算法不断优化模型以期最小化结构风险的过程,结构风险=损失项LossTerm+正则项RegularizationTerm,损失项即损失函数,又称经验风险函数、误差,用来评价模型的预测值与真实值的不一致程度,正则项用来避免过拟合,提升模型的泛化能力;
  14. 不同的学习算法损失函数的定义不同,如果只考虑经验风险,容易过拟合;
  15. 机器学习的评价指标与其他常用评价指标:
    基本指标
    其他指标1
    其他指标2
    ROC
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值