296.一般,k-NN最近邻方法在( A)的情况下效果较好。
A.样本较多但典型性不好
B.样本呈团状分布
C.样本较少但典型性好
D.样本呈链状分布
297.下列哪些方法可以用来对高维数据进行降维(A B C D E F)
A LASSO
B 主成分分析法
C 聚类分析
D 小波分析法
E 线性判别法
F 拉普拉斯特征映射
解析:lasso通过参数缩减达到降维的目的;
pca就不用说了
线性鉴别法即LDA通过找到一个空间使得类内距离最小类间距离最大所以可以看做是降维;
小波分析有一些变换的操作降低其他干扰可以看做是降维
拉普拉斯请看这个http://f.dataguru.cn/thread-287243-1-1.html
298.以下描述错误的是(C)
A SVM是这样一个分类器,它寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器
B 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差
C 在决策树中,随着树中结点输变得太大,即使模型的训练误差还在继续降低,但是检验误差开始增大,这是出现了模型拟合不足的原因
D 聚类分析可以看作是一种非监督的分类
299.以下说法中正确的是(C)
A SVM对噪声(如来自其他分部的噪声样本)具备鲁棒性
B 在adaboost算法中,所有被分错样本的权重更新比例相同
C boosting和bagging都是组合多个分类器投票的方法,二者都是根据单个分类器的正确率确定其权重
D 给定n个数据点,如果其中一半用于训练,一半用户测试,则训练误差和测试误差之间的差别会随着n的增加而减少
300.关于正态分布,下列说法错误的是(C)
A.正态分布具有集中性和对称性
B.正态分布的均值和方差能够决定正态分布的位置和形态
C.正态分布的偏度为0,峰度为1
D.标准正态分布的均值为0,方差为1
转载自:http://mp.weixin.qq.com/s/9_gcePyDTcIOCF8SEJ0fVg