1、下列属于无监督学习的是:
正确答案: A
A、k-means
B、SVM
C、最大熵
D、CRF
简单来说,基于已知类别的样本调整分类器的参数,使其达到所要求性能的过程,称为监督学习;对没有分类标记的训练样本进行学习,以发现训练样本集中的结构性知识的过程,成为非监督学习。
其中,k-means为是最为经典的基于划分的无监督学习聚类方法。
2、在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题()
正确答案: D
A、增加训练集量
B、减少神经网络隐藏层节点数
C、删除稀疏的特征 S
D、SVM算法中使用高斯核/RBF核代替线性核
避免过拟合的方法:正则化方法,强制减少参数,增大训练数据集。
对于B,过拟合是太多的参数引起的。神经网络减少隐藏层节点,就是在减少参数,只会将训练误差变高,不会导致过拟合。
对于D,svm高斯核函数比线性核函数模型更复杂,容易过拟合
径向基(RBF)核函数/高斯核函数的说明
这个核函数可以将原始空间映射到无穷维空间。对于参数 ,如果选的很大,高次特征上的权重实际上衰减得非常快,实际上(数值上近似一下)相当于一个低维的子空间;反过来,如果选得很小,则可以将任意的数据映射