1.关于k-means算法,正确的描述是(初始值不同,最终结果可能不同)
A能找到任意形状的聚类
B初始值不同,最终结果可能不同
C每次迭代的时间复杂度是0(n2),其中n是样本数量
D不能使用核函数(kernel function)
解析:参数k的选择不同,结果不同,K-means 算法的初始“簇中心”点是随机选取的,所以最终求的得簇中心的划分与随机选取的“簇中心”有关,因此会造成的;多种簇的划分情况形成。
2.通常来说,哪个模型被认为易于解释? (决策树)
SVM
线性回归(Linear Regression)
决策树(Decision Tree)
K-近邻(K-Nearest Neighbor)
解析:决策树模型每作出一个决策都会通过一个决策序列来向我们展示模型的决策依据:比如男性&未婚&博士&秃头的条件对应「不感兴趣」这个决策,而且决策树模型自带的基于信息理论的筛选变量标准也有助于帮助我们理解在模型决策产生的过程中哪些变量起到了显著的作用。
3.下列关于神经网络的叙述中,正确的是(B)
A损失函数关于输入一定是非凸或非凹的
B存在某种深度神经网络(至少一个隐藏层),使其每个局部最优解都是全局最优解
C深度神经网络容易陷入局部最优解
解析:
神经网络的损失函数是非凸的,有多个局部最低点,目标是找到一个可用的最低点。非凸函数是凹凸不平的,但是不同的损失函数凹凸起伏的程度不同,例如下述的平方损失和交叉熵损失,后者起伏更大,且后者更容易找到一个可用的最低点,