1.什么是机器学习?区别监督学习和无监督学习。
机器学习是对计算机算法的研究,它可以通过庞大的数据群以及不断地训练自动改进数据分析模型。机器学习是人工智能的一个子集。这项技术的主要任务是指导计算机从数据中学习,然后利用经验来改善自身的性能,不需要进行明确的编程。
监督学习:样本带有标签值,称为监督信号,有学习过程,根据训练样本学习,得到模型,然后用于预测。 分类、回归。
无监督学习:样本没有标签值,没有训练过程,机器学习算法直接对样本进行处理,得到结果。 聚类、降维。
2.小样本(有限样本)统计学习理论的核心是结构风险最小化原理(经验风险、结构风险、VC维),谈谈你对这方面的理解和认识。并重点分析结构风险最小化原理的核心是什么?VC维又是如何影响学习的性能的?
(1)结构风险最小化:把函数集构造为一个函数子集序列,使各个子集按照VC维的大小排列;在每个子集中寻找最小经验风险,在子集间折中考虑经验风险和置信范围,取得实际风险的最小化。
(2)结构风险最小化原理的核心:设计函数集的某种结构使每个子集中都能取得最小的经验风险(如使训练误差为0),然后只需选择适当的子集使置信范围最小,则这个子集中使经验风险最小的函数就是最优函数。
(3)VC维:它反映了模型的学习能力,VC维越大,则模型的容量越大。VC维是一个指标,衡量模型容量(capacity)的指标。模型容量并不是越大越好,通常来讲,模型容量讲究够用即可。当数据量不足的情况下,丢一个很大的模型,往往效果会很差,容易形成过拟合。
在保证分类精度(经验风险)的同时,降低学习机器的 VC 维,可以使学习机器在整个样本集上的期望风险得到控制。
3.什么是支持向量?什么是支持向量机SVM?分析SVM的优势。
支持向量:是指训练集中的某些训练点,这些点最靠近分类决策面,是最难分类的数据点。
支持向量机是一种二分类模型,是有监督学习算法的一种,用于解决数据挖掘或模式识别领域中数据分类问题。它的基本模型是定义在特征空间上的间隔最大的线性分类器。支持向量机的三大核心构件分别是最大间隔、高维映射以及核函数。
优势:
(1)支持向量机可以解决小样本情况下的机器学习问题。
(2)支持向量机的最终决策函数只是由少数的支持向量所决定,所以支持向量机的复杂度取决于支持向量的数据,而不是样本空间的维数。
(3)采用核函数的方法克服了维数灾难,非线性可分的问题,但是并没有增加计算性
(4)支持向量机算法利用松弛变量可以允许一些点到分类平面的距离不满足原先的要求,从而避免了这些异常点对模型学习的影响。
4.什么是线性SVM、软间隔SVM和非线性SVM。SVM如何解决非线性可分的问题?
线性可分SVM:当数据线性可分的时候,通过硬间隔(hard margin)最大化可以学习得到一个线性分类器。即硬间隔SVM。
软间隔SVM:当训练数据不能线性可分但是可以近似线性可分时,通过软间隔(soft margin)最大化也可以学习到一个线性分类器。
非线性SVM:当训练数据线性不可分时,通过使用核技巧(kernel trick)和软间隔最大化,可以学习到一个非线性SVM。
解决方法:
(1)利用核函数,到更高维度去找可以分类的超平面。
(2)软间隔和正则化,有限制地降低分类要求,允许一部分样本(不满足的样本要尽量少)不满足。
5.什么是核函数?有几种主要类型?
(1)将原始空间中的向量作为输入向量,并返回特征空间(转换后的数据空间,可能是高维)中向量的点积的函数称为核函数。核函数只是用来计算映射到高维空间之后的内积的一种简便方法。
标量函数对样本集中所有样本间的函数值构成的矩阵是半正定的,则这个函数就是一个核函数。
(2)核函数包括线性核函数、多项式核函数、 sigmoid核函数、高斯核函数等。其中高斯核函数最常用,可以将数据映射到无穷维,也叫做径向基核函数。
6.什么是模式识别,识别系统的一般流程?
模式识别:是一种从大量信息和数据出发,在专家经验和已有认识的基础上,利用计算机和数学推理的方法对形状、模式、曲线、数字、字符格式和图形自动完成识别的过程。
流程:模式采集、预处理、特征提取、分类器设计、分类决策