机器学习-题库
1、下列属于有监督算法的是 ( )
A、 决策树 B、 K-均值 C、 贝叶斯 D、 SVM
答案: ACD
2、机器学习在自然语言处理领域的应用不包括( )。
A、 问答系统 B、 信息收取 C、 病理分析 D、 实时翻译
答案: C
3、机器学习是人工智能里面一个非常重要的技术,深度学习是机器学习里面
的一种方法。 (✓)
4、以下哪个步骤将原始数据进行变换、变量相关性、标准化等任务( )。
A、 部署 B、 业务需求分析 C、 数据预处理 D、 结果评估
答案: C
5、数据预处理对机器学习是很重要的,下面说法正确的是( )。
A、 数据预处理的效果直接决定了机器学习的结果质量 B、 数据噪声对神经网络的训练没什么影响
C、 对于有问题的数据都直接删除即可 D、 预处理不需要花费大量的时间
答案: A
6、有关机器学习工程师下面说法正确的是( )。
A、 不需要了解一定的相关业务知识 B、 不需要熟悉数据的提取和预处理
C、 需要一定的数据分析实际项目训练 D、 培训后就能胜任实际数据分析
答案: C
7、以下哪个步骤不是机器学习所需的预处理工作( )。
A、 数值属性的标准化 B、 变量相关性分析
C、 异常值分析 D、 与用户讨论分析需求
答案: D
8、以下有关机器学习理解不正确的是 ( )。
A、 查询大量的操作数据去发现新的信息
B、 从大量的业务数据中分析有兴趣的新颖知识辅助决策的过程
C、 机器学习的结果不一定能辅助决策
D、 需要借助统计学或机器学习的一些算法 答案: A
9、对于机器学习中的原始数据,存在的问题可能有( )。
A、 错误值 B、 重复 C、 异常值 D、 不完整
答案: ABCD
10、论机器学习与人工智能的关系。
答案:机器学习是人工智能的一个分支,作为人工智能核心技术和实现手段, 通过机器学习的方法解决人工智能面对的问题。
11、论机器学习与数据挖掘的关系。
答案:数据挖掘是从大量的业务数据中挖掘隐藏、有用的、正确的知识促进决 策的执行。
数据挖掘的很多算法都来自于机器学习,并在实际应用中进行优化。
机器学习最近几年也逐渐跳出实验室,解决从实际的数据中学习模式,解决实 际问题。数据挖掘和机器学习的交集越来越大,机器学习成为数据挖掘的重要 支撑技术。
12、机器学习能解决哪些问题?每一类使用的常用方法有哪些?举例说明其应 用。
答案:
分类:逻辑回归、决策树、KNN、随机森林、支持向量机、朴素贝叶斯 预测:线性回归、KNN、Gradient Boosting、AdaBoost
无监督学习:聚类、关联分析 强化学习
13、举例说明机器学习的基本过程,并举例说明基本步骤各有哪些方法。
答案:定义分析目标、收集数据、数据预处理、数据建模、模型训练、模型评 估、模型应用
14、sklearn.model_selection 中的 train_test_split 函数的常见用法
为 、 、 、
答案: x_train; x_test; y_train; y_test;
15、训练一个机器学习模型往往需要对大量的参数进行反复调试或者搜索,这
一过程称为 。其中在训练之前调整设置的参数,称为 。
答案: 调参;超参数;
16、根据模型预测输出的连续性,可以将机器学习算法适配的问题划分为分类 问题和线性问题。 (×)
17、降维、聚类是无监督学习算法。 (✓)
18、以下属于解决模型欠拟合的方法的是 ( )
A、 增加训练数据量 B、 对模型进行裁剪
C、 增加训练过程的迭代次数 D、 正则化
答案: C
19、构建一个完整的机器学习算法需要三个方面的要素,分别是数据、模型、
( ) 。
A、 性能度量准则(策略) B、 评估 C、 验证 D、 训练和验证
答案: A
20、train_test_split 函数的 test_size 参数规定了测试集占完整数据集的比 例,默认取 ( )
A、 0.5 B、 0.25 C、 0.2 D、 0.75
答案: B
21、监督学习和无监督学习的区别是什么?降维和聚类属于哪一种?
答案:监督学习是指样本集合中包含标签的机器学习,无监督学习是无标签的 机器学习。降维和聚类是无监督学习。
22、过拟合和欠拟合会导致什么后果,应该怎样避免?
答案:过拟合导致模型泛化能力弱,发生明显的预测错误,往往是由于数据量 太少或模型太复杂导致,通过增加训练数据量,对模型进行裁剪,正则化的方 式来缓解。而欠拟合则会导致模型不能对数据进行很好地拟合,通常是由于模 型本身不能对训练集进行拟合或者训练迭代次数太少,解决方法是对模型进行 改进,设计新的模型重新训练,增加训练过程的迭代次数。
23、以下有关可视化方法作用的说法,错误的是哪个( )。
A、 可视化可以在数据预处理阶段,帮助数据分析者发现变量之间的关系
B、 可视化不是简单地把数据展示成图形,可能要放在原始数据加工后更有效 C、 可视化可用作机器学习过程的观察以及结果的展示
D、 可视化就是一种艺术创作,可以创造新的规律 答案: D
24、特征选择与特征提取的关系是( )。
A、 特征提取包含特征选择 B、 特征选择包含特征提取
C、 一码事,说法不同而已 D、 It is like comparing apples and oranges
答案: A
25、机器学习的工作流程
答案:
第一种答案:1.获取数据 2.数据基本处理 3.特征工程 4.机器学习(模型训练)
5.模型评估
第二种答案:定义分析目标、收集数据、数据预处理、数据建模、模型训练、 模型评估、模型应用
26、机器学习的定义?
答案:对于某给定的任务 T ,在合理的性能度量方案 P 的前提下,某计算机程 序可以自主学习任务 T 的经验 E ,随着提供合适、优质、大量的经验 E ,该程 序对于任务 T 的性能逐步提高。机器学习是从数据中自动分析获得模型,并利 用模型对未知数据进行预测。
27、机器学习的算法如何分类?每个类别都包括那些常用算法?
答案:机器学习的算法一般分为监督学习、无监督学习和半监督学习。监督学 习又分为分类和预测两各类别,分类算法包括逻辑回归、决策树、k 近邻算
法、随机森林、支持向量机、朴素贝叶斯等,预测算法包括线性回归、K 近邻 算法、梯度提升树、AdaBoost等。无监督学习算法包括聚类、降维、关联规则 等。
28、机器学习中常用的模型评估的方法有哪些?
答案:
分类模型:准确率、精准率、召回率、F1-score、AUC 指标 回归模型:RMSE、RSE、RAE、MAE、决定系数等。
29、人工智能发展需要具备那些要素 、 、 。
答案:数据;算法;算力
30、机器学习的三要素是 、 、 。
答案:模型;策略;算法
31、下列哪些分析需要机器学习( )。
A、 预测移动运营商用户未来使用的网络流量
B、 比较不同移动运营商用户对漫游业务的使用量
C、 寻找移动运营商用户对某类套餐使用的潜在客户
D、 统计移动运营商的用户在某段时间对短信的使用数量 答案: AC
32、机器学习的发展历史上有哪些主要事件。
答案:机器学习发展分为知识推理期、知识工程期、浅层知识期和深度学习几 个阶段,可从几个阶段选择主要历史事件作答。
33、机器学习有哪些主要的流派?它们分别有什么贡献?
答案:
符号主义:专家系统、知识工程
贝叶斯派:情感分类、 自动驾驶、垃圾邮件过滤 联结主义:神经网络
进化主义:遗传算法 行为类推主义
34、讨论目前机器学习应用中存在的主要问题。
答案:选择什么模型或算法、选择什么优化方法、如何对数据进行预处理、 目 标函数是什么、过拟合与欠拟合的处理、维度爆炸
35、从机器学习的发展过程讨论其未来的发展方向。
答案:新的机器学习算法面临的问题更加复杂,应用领域更加广泛,从广度到 深度发展,对模型训练和应用都提出了更高的要求。
随着人工智能的发展,冯诺依曼的有限状态机的理论基础越来越难以适应神经 网络的层数要求,新的机器学习理论发展也迫在眉睫。
36、有监督的学习和无监督的学习的根本区别在于( )。
A、 学习过程是否需要人工干预 B、 学习样本是否需要人工标记
C、 学习结果是否需要人工解释 D、 学习参数是否需要人工设置
答案: B
37、机器学习中分类模型评估的指标有哪些?
答案:
1)准确率:预测正确的样本占样本总数的比例。
2)精确率:正确预测为正例的样本占全部预测为正例的比例。
3)召回率:正确预测为正例的样本占全部为正例的样本的比例。
4)F1-score:主要用于评估模型的稳健性。
5)AUC 指标:主要用于二分类场景中样本不均衡情况下的模型评估。
38、k-近邻算法的基本要素不包括 ( )
A、 距离度量 B、 k 值的选择 C、 样本大小 D、 分类决策规则
答案: C
39、关于 k-近邻算法说法错误的是 ( )
A、 k-近邻算法是机器学习 B、 k-近邻算法是无监督学习
C、 k 代表邻居的个数 D、 k 的选择对分类结果没有影响
答案: D
40、以下关于 k-近邻算法的说法中正确的是 ( )
A、 k-近邻算法不可以用来解决回归问题
B、 随着 k 值的增大,决策边界会越来越光滑
C、 k-近邻算法适合解决高维稀疏数据上的问题
D、 相对 3 近邻模型而言,1 近邻模型的 bias 更大,variance 更小 答案: B
41、以下哪种算法不可以通过无监督学习方式进行训练
A、 k-近邻算法 B、 决策树 C、 RBM D、 GAN
答案: B
42、以下关于 k-近邻算法的说法中,错误的是 ( )
A、 一般使用投票法进行分类任务 B、 k-近邻算法属于懒惰学习
C、 k-近邻算法训练时间普遍偏长 D、 距离计算方法不同,效果也可能有
显著差别 答案: C
43、算法的时间复杂度是 。
答案:计算到训练集中所有样本距离的时间加上排序的时间;
44、对 k-近邻算法的研究包含三个方面: 、 、 。
答案:k 值的选取;距离的度量;决策规则
45、K-近邻算法中,当 K 值很大时,可以通过 ,在验证集上多次尝试 不同的 K 值来挑选最佳 K 值
答案:交叉验证;
46、K 近邻算法中,一般使用 对于连续变量进行距离度量。
答案:欧氏距离;
47、当训练集合的规模很大时,如何快速找到样本x 的 成为计算机实现近年 算法的关键。
答案:k 个近邻;
48、K-近邻算法的投票法准则是少数服从多数。 (✓)
49、对于离散变量,可以直接使用欧氏距离进行度量。 ( × )
50、K-近邻算法中,样本的预测结果只由训练集中与其距离最近的 k 个样本
中,数量最多的那个样本类别决定。 (✓)
51、对于一般的离散变量同样可以采用类似词嵌人的方法进行距离度量 (✓)
52、请简述 k-近邻算法的思想
答案:给定一个训练样本集合 D 以及一个需要进行预测的样本 x:对于分类问
题,k-近邻算法从所有训练样本集合中找到与x 最近的 k 个样本,然后通过投 票法选择这 k 个样本中出现次数最多的类别作为x 的预测结果;对于回归问题,k 近邻算法同样找到与 x 最近的 k 个样本,然后对这 k 个样本的标签求平均值,得 到 x 的预测结果。
53、请简述 K 近邻算法中投票法的特点.
答案:K 值的选取使用的是投票法,投票法的准则是少数服从多数,所以当k 值很小时,得到的结果就容易产生偏差。如果 k 值选取较大,则可能会将大量 其他类别的样本包含进来,极端情况下,将整个训练集的所有样本都包含进
来,这样同样可能会造成预测错误。
54、投票法中K 值很大时会怎么样?怎样获得最佳 K 值?
答案:如果 k 值选取较大,则可能会将大量其他类别的样本包含进来.极端情况 下,将整个训练集的所有样本都包含进来,这样同样可能会造成预测错误。一 般情况下,可通过交叉验证、在验证集上多次尝试不同的 k 值来挑选最佳的k 值。
55、请简述 kd 树在快速检索中的应用.
答案:kd 树是-种典型的存储 k 维空间数据的数据结构(此处的 k 指x 的维度大 小,与 k 近邻算法中的 k 没有任何关系)。建立好 kd 树后,给定新样本后就可 以在树上进行检索,这样就能够大大降低检索 k 个近邻的时间,特别是当训练 集的样本数远大于样本的维度时。
56、KNN 算法即解决的是寻找与未知样本 的 K 个样本,并对未知样本
所属的分类或者属性进行预测的问题。
答案:最近邻;
57、KNN 算法中,空间中两个样本的距离默认是通过 来度量的。
答案:欧氏距离;
58、以下关于 KNN 算法API 的使用有误的一项是?
A、导入算法对象:
from sklearn.neighbors import KNeighborsClassifier 构造数据:
x = [[0], [1], [2], [3]]
y = [0, 0, 1, 1] B、实例化算法 API:
estimator = KNeighborsClassifier(n_neighbors=2) C、训练模型: estimator.fit(x, y)
D、模型预测:estimator.predict([1]) 答案: D
59、关于 KNN 算法,下列说法中正确的是?
A、 若 k 值过小,训练误差会减小,对应的测试误差会增大,模型有过拟合的 风险。
B 、 若 k 值过大,训练误差会增大,对应的测试误差会减小,模型会变的相对 简单,结果更容易受到异常值的影响。
C、 若 k 值与训练集样本数相同,会导致最终模型的结果都是指向训练集中类 别数最多的那一类,忽略了数据当中其它的重要信息,模型会过于简单。
D、 实际工作中经常使用交叉验证的方式去选取最优的 k 值,而且一般情况 下,k 值都是比较小的数值。
答案: ABCD
60、kd-tree 是基于 距离来度量的 ,kd-tree 每个节点都为 维点的二 叉树。
答案:欧式;K;
61、Kd-tree 构造过程中,根节点的选取依据是:选取数据 的那一维数 据开始划分。
答案: 相对离散(方差较大);
62、Sklearn 中的数据集获取,sklearn.datasets.load_*适用于 的数据集 获取;sklearn.datasets.fetch_* 适用于 的数据集获取。
答案:小规模;大规模;
63、以下对鸢尾花数据进行可视化代码的顺序正确的是?
A)绘图:
plot_iris(iris_d, 'Petal_Width', 'Sepal_Length ’) B)把数据转换成 dataframe 的格式:
iris_d = pd.DataFrame(iris['data'], columns =
['Sepal_Length', 'Sepal_Width', 'Petal_Length', 'Petal_Width ’])
iris_d['Species'] = iris.target
C)定义绘图函数:
def plot_iris(iris, col1, col2):
sns.lmp lot(x = col1, y = col2, data = iris, hue =
"Species",
fit_reg = False) plt.xlabel(col1) plt.ylabel(col2)
plt.title('鸢尾花种类分布图') plt.show()
A、 A→ B→C B、 B→A→C C、 B→C→A D、 C→ B→A
答案: CD
64、特征预处理解决两类问题:一是将不同维度的 数据进行无量纲
化(缩放到相同的范围水平);二是机器学习算法对 的特征有偏
好,这样对其它特征而言有失公正, 而且,算法不能够充分学习到更多的特 征信息。为了消除这种影响,我们 首先会对这样的特征进行特征预处理。
答案:数值型;数值较大
65、分别说明KNN 算法API 中下列参数的意义:
KNeighborsClassifier(n_neighbors, algorithm='auto')
1)n_neighbors:integer;
2)algorithm: {'auto','ball_tree','kd_tree','brute'}
3)metric : (default = 'minkowski')
4)p:integer, optional (default = 2)
答案:
① 搜索最近邻样本的最大数量;
② 最近邻样本搜索所使用的方法;
③ 距离度量方法;
④ 指定闵可夫斯基距离中的 P 值。
66、KNN 算法的优缺点是什么?应用在什么场景?
答案:
1)优点:思想简单,效果强大,可用于解决回归问题 KNeighborsRegressor。
2)缺点:① 效率 低下,数据的预测结果可解释性不强;② 对 k 值的取值比 较敏感,对于高维度的数据的处理效果不明显。
3)适用于小中性数据集场景。
67、交叉验证和网格搜索的目的是什么?
答案:1)在数据量较少的情况下,为了让数据被 充分利用,并且为了让被评 估的模型更加准确可信,一般会使用交叉验证去完成任务。
2)有些算法模型本身自带较多的超参数,无法高效的去筛选比较合适的超参数 组合。
3)使用交叉验证和网格搜索可以提升模型的可信度和查找最佳参数组合的效 率。
68、交叉验证API 中各参数的意义:
sklearn.model_selection.GridSearchCV(estimator, param_grid, cv)
(1)estimator:object of estimator;
(2)param_grid:dict;
(3)cv:integer;
答案:
1 实例化后的算法模型对象;
2 待被筛选的超参数字典;
3 指定筛选超参数时使用的是几折交叉验证。
69、简述 KNN 算法流程。
答案:
1)计算已知类别数据集中的点与当前点之间的距离
2)按距离递增次序排序
3)选取与当前点距离最小的 k 个点
4)统计前 k 个点所在的类别出现的频率
5)返回前 k 个点出现频率最高的类别作为当前点的预测分类
70、简述 KNN 中 K 值大小选择对模型的影响。
答案:
K 值过小:容易受到异常点的影响,容易过拟合 k 值过大:受到样本均衡的问题,容易欠拟合
71、K-近邻算法 API 中,
sklearn.neighbors.KNeighborsClassifier(n_neighbors= ),
n_neighbors 参数的默认值是 。
答案:5;
72、在机器学习过程中,对于函数 dist(),若它是一"距离度量" (distance
measure),则需满足一些基本性质 ( )
A、 非负性 B、 同一性 C、 对称性 D、 直递性
答案: ABCD
73、常见的距离公式有( )。
A、 欧氏距离 B、 曼哈顿距离 C、 切比雪夫距离 D、 闵可夫斯基距离
答案: ABCD
74、欧氏距离通过( )进行计算。
A、 距离平方值 B、 距离绝对值 C、 维度的最大值
答案: A
75、k-近邻算法中,有关 k 值选的说法正确的是 ( )
A、 K 值的减小就意味着整体模型变得复杂,容易发生过拟合。 B、 K 值的增大就意味着整体的模型变得简单。
C、 实际应用中,K 值一般取一个比较小的数值。
D、 K 值可以通过交叉验证和网格搜索进行调优选取 答案: ABCD
76、K-近邻算法中,有关 k 值选取的说法错误的是( )。
A、 K 值过小,不容易受到样本异常点的影响 B、 K 值过小,容易过拟合。
C、 K 值过大,容易受到样本均衡性的问题影响。D、 K 值过大,容易欠拟合。
答案: A
77、有关 KD 树的构造,以下说法正确得是 ( ) ?
A、 KD 树构建过程中需要解决选择向量的哪一维度进行划分和如何划分数据两 个核心问题。
B、 KD 树构建过程中通常采用方差衡量数据比较分散的那一维进行划分。 C、 为了保持树的平滑性,通常选择中位数进行数据划分。
D、 通过递归的方法,不断地对 k 维空间进行切分,生成子节点 答案: ABCD
78、特征预处理是通过一些转换函数将特征数据转换成更加适合算法模型的特
征数据过程。 (✓)
79、特征预处理包括 和 。
答案:归一化;标准化
80、通过对原始数据进行变换把数据映射到[a, b](默认为[0,1])之间.
答案:归一化;
81、归一化特征预处理时,最大值与最小值非常容易受异常点影响,所以这种
方法鲁棒性较差,只适合传统精确小数据场景。 (✓)
82、 是通过对原始数据进行变换把数据变换到均值为 0,标准差为 1 范围 内。
答案:标准化;
83、逻辑回归模型解决 ( )
A、 回归问题 B、 分类问题 C、 聚类问题 D、 推理问题
答案: B
84、逻辑回归属于( )回归
A、概率性线性 B、概率性非线性 C、非概率性线性 D、非概率性非线性
答案: B
85、逻辑回归不能实现 ( )
A、 二分类 B、 多分类 C、 分类预测 D、 非线性回归
答案: D
86、下列关于模型评价指标的表述错误的是 ( )
A、 准确率、精确率、召回率以及 AUC 均是建立在混淆矩阵的基础上 B、 在样本不平衡的条件下准确率并不能作为很好的指标来衡量结果
C、 准确率表示所有被预测为正的样本中实际为正的样本的概率 D、 一般来说,置信度阈值越高,召回率越低,而精确率越高
答案: C
87、回归模型中,损失函数的优化目标是让整个样本集合上的 与 之间的欧氏 距离之和最小。
答案:预测值;真实值
88、线性回归的目标是求解ω和 b,使得 f(x)与 y 尽可能接近。求解线性回归
模型的基本方法是 。
答案:最小二乘法;
89、PR 曲线以 为纵坐标,以 为横坐标。
答案:精准率;召回率;
90、多元线性回归问题中:当 时,线性回归模型存在唯一解。
答案:XTX 可逆;
91、在 ROC 曲线与 AUC 曲线中,对于某个二分类分类器来说,输出结果标签(0
还是 1)往往取决于 以及 。
答案:置信度;预定的置信度阈值;
92、逻辑回归是一种广义线性回归,通过回归对数几率的方式将线性回归应用
于分类任务。 (✓)
93、机器学习中描述一个概率分布时,在满足所有约束条件的情况下,熵最小 的模型是最好的。 (×)
94、准确率可以判断总的正确率,在样本不平衡的情况下,也能作为很好的指标 来衡量结果。 (×)
95、信息论中.熵可以度量随机变量的不确定性。现实世界中.不加约束的事物
都会朝着“熵增 ”的方向发展,也就是向不确定性增加的方向发展。 (✓)
96、当 TPR=FPR 为一条斜对角线时,表示预测为正样本的结果一半是对的,一
半是错的,为随机分类器的预测效果。 (✓)
97、请简述准确率、精确率和召回率的定义
答案:准确率是最为常见的指标,即预测正确的结果占总样本的百分比
精确率又叫查准率,精确率表示在所有被预测为正的样本中实际为正的概率 召回率又叫查全率,召回率表示在实际为正的样本中被预测为正样本的概率
98、请解释混淆矩阵包含的四部分信息:真阴率、假阳率、假阴率、真阳率的 概念
答案:
(1)真阴率(True Negative,TN)表明实际是负样本预测成负样本的样本数。
(2)假阳率(False Positive,FP)表明实际是负样本预测成正样本的样本数。
(3)假阴率(False Negative, FN)表明实际是正样本预测成负样本的样本数。
(4)真阳率(True Positive,TP)表明实际是正样本预测成正样本的样本数。
99、请说明一般情况下 PR 曲线中置信度阈值、召回率和精确率的变化关系
答案:不同的置信度阈值对应着不同的精确率和召回率。一般来说,置信度阈 值较低时,大量样本被预测为正例,所以召回率较高,而精确率较低;置信度阈值 较高时,大量样本被预测为负例,所以召回率较低,而精确率较高。
100、电影投资金额和电影收入之间的关系可以用一个一元线性回归方程来表 示,下列说法正确的是( )。
A、 投资越多收入越少 B、 投资越少收入越多
C、 投资越多收入越多 D、 投资和收入的关系不确定
答案: C
101、特征工程不包括( )。
A、 特征构建 B、 特征合并 C、 特征选择 D、 特征提取
答案: B
102、分析营销投入与销售收入的关系可以使用下面哪种数据挖掘方法( )。
A、 关联分析 B、 回归分析 C、 聚类方法 D、 推荐算法
答案: B
103、下面哪个回归分析的说法是正确的( )。
A、 回归分析是分析一个变量与其他一个(或几个)变量之间的线性关系的统计 方法
B、 回归分析不需要样本训练
C、 不可以预测非数据型属性的类别
D、 非线性回归方程一般要转化为线性回归方程才比较容易求解其中的参数 答案: D
104、对于非线性回归问题,以下说法错误的是哪个( )。
A、 可以分别求单个自变量与因变量的回归方程,然后简单求这些方程的加权和 B、 非线性回归方程的系数需要把其转化为线性回归方程才方便求解
C、 非线性回归模型的检验也可以使用 R2
D、 Logistic 回归是一种典型的广义线性回归模型 答案: A
105、有关回归模型的系数,以下说法错误的是哪个( )。
A、 一元线性回归模型的系数可以使用最小二乘法求得 B、 多元回归模型的系数可以使用梯度下降法求得
C、 一元线性回归模型的系数大小和正负说明自变量对因变量的相对影响大小
D、 回归分析的目的是计算回归方程的系数,使得样本的输入和输出变量之间的
关系能够合理拟合 答案: B
106、下面有关线性判别分析错误的说法是哪个( )。
A、 通过对原始的数据进行线性变换,使得不同类的样本尽量分开 B、 线性判别分析中线性变换可以使同类样本的方差变大
C、 线性变换可以使不同类别样本的距离加大 D、 提高不同类样本的可分性
答案: B
107、以下有关可视化认识错误的是哪个( )。
A、 可视化是简单地把原始的数据用图的形式展示出来的方法 B、 可视化可以作为数据预处理的一种方法,找出其中的噪声
C、 可视化本身是一种数据分析方法,使用图表把数据中隐藏的规律展示出来
D、 通过数据的可视化,可以促进数据分析人员对数据的认识和规律发现 答案: A
108、什么是标准差、方差和协方差?它们反映了数据的什么内容?
答案:标准差描述是样本集合的各个样本点到均值的距离分布,描述的是样本 集的分散程度。
在机器学习中的方差就是估计值与其期望值的统计方差。如果进行多次重复验 证的过程,就会发现模型在训练集上的表现并不固定,会出现波动,这些波动 越大,它的方差就越大。
协方差主要用来度量两个随机变量关系,如果结果为正值,则说明两者是正相 关的;结果为负值,说明两者是负相关的;如果为 0,就是统计上的“相互独 立 ”。
109、什么是正则化?正则化有什么功能?
答案:正则化是为了避免过拟合的手段。
正则化为了结构风险最小化,在经验风险上加一个正则化项或惩罚项,正则化 项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。
110、训练误差如何度量和减少?
答案:训练误差是模型 Y 关于训练数据集的平均损失。
损失函数可以有多种,包括 0-1 损失函数、平方损失函数、绝对损失函数、对 数损失函数。训练误差较高时可以调整超参数重新训练。
111、如何评价一个算法的性能?
答案:不同算法有不同的评价指标。
例如分类算法评价指标有:准确率、准确率、召回率、F1 值、ROC 曲线等。
回归模型的评价指标有:平均绝对偏差(MAE)、均方误差(MSE)、R2 指标等
112、特征提取有哪些常用的方法( )。
A、主成分分析 B、独立成分分析 C、线性判别分析 D、线性回归分析
答案: ABC
113、线性回归的过程是什么?
答案: 线性回归的过程是:
a) 确定输入变量与目标变量间的回归模型,即变量间相关关系的数学表达式
b) 根据样本估计并检验回归模型及未知参数
c) 从众多的输入变量中,判断哪些变量对目标变量的影响是显著的
d) 根据输入变量的已知值来估计目标变量的平均值并给出预测精度
114、逻辑回归为什么可以预测新样本的类别?
答案:逻辑回归是一种预测分析, 解释因变量与一个或多个自变量之间的关与 线性回归不同之处就是它的目标变量有几种类别,所以逻辑回归主要用于解决 分类问题,与线性回归相比,它是用概率的方式,预测出来属于某一分类的概 率值。如果超过 50%,则属于某一分类。
115、下面哪个回归分析的说法是正确的( )。
A、 回归分析是分析一个变量与其他一个(或几个)变量之间的线性关系的统计 方法
B、 回归分析不需要样本训练
C、 不可以预测非数据型属性的类别
D、 非线性回归方程一般要转化为线性回归方程才比较容易求解其中的参数 答案: D
116、对于非线性回归问题,以下说法错误的是哪个( )。
A、 可以分别求单个自变量与因变量的回归方程,然后简单求这些方程的加权和
B、 非线性回归方程的系数需要把其转化为线性回归方程才方便求解 C、 非线性回归模型的检验也可以使用 R2
D、 Logistic 回归是一种典型的广义线性回归模型 答案: A
117、有关回归模型的系数,以下说法错误的是哪个( )。
A、 一元线性回归模型的系数可以使用最小二乘法求得 B、 多元回归模型的系数可以使用梯度下降法求得
C、 一元线性回归模型的系数大小和正负说明自变量对因变量的相对影响大小 D、 回归分析的目的是计算回归方程的系数,使得样本的输入和输出变量之间的
关系能够合理拟合 答案: B
118、下面有关线性判别分析错误的说法是哪个( )。
A、 通过对原始的数据进行线性变换,使得不同类的样本尽量分开
B、 线性判别分析中线性变换可以使同类样本的方差变大 C、 线性变换可以使不同类别样本的距离加大
D、 提高不同类样本的可分性 答案: B
119、什么是标准差、方差和协方差?它们反映了数据的什么内容?
答案:标准差描述是样本集合的各个样本点到均值的距离分布,描述的是样本 集的分散程度。
在机器学习中的方差就是估计值与其期望值的统计方差。如果进行多次重复验 证的过程,就会发现模型在训练集上的表现并不固定,会出现波动,这些波动 越大,它的方差就越大。
协方差主要用来度量两个随机变量关系,如果结果为正值,则说明两者是正相 关的;结果为负值,说明两者是负相关的;如果为 0,就是统计上的“相互独 立 ”。
120、何利用平均值和标准差判断数据的异常值。
答案:与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。 在处理数据时,应剔除高度异常的异常值。
异常值是否剔除,视具体情况而定
标准差可用于识别符合高斯或类高斯分布的数据中的异常值
121、什么是正则化?正则化有什么功能?
答案:正则化是为了避免过拟合的手段。
正则化为了结构风险最小化,在经验风险上加一个正则化项或惩罚项,正则化 项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。
122、训练误差如何度量和减少?
答案:训练误差是模型 Y 关于训练数据集的平均损失。
损失函数可以有多种,包括 0-1 损失函数、平方损失函数、绝对损失函数、对 数损失函数。
训练误差较高时可以调整超参数重新训练。
123、 什么是交叉校验?常用的交叉校验方法有哪些?
答案:在一般情况下将数据集随机切分为训练集、验证集和测试集三部分。
训练集用来训练模型,验证集用于训练过程中模型的验证和选择,如果有多个 模型,选择其中最小预测误差的模型,而测试集用于对最终训练完成的模型进 行评估。
在实际应用中,数据往往并不充足,此时可以采用交叉验证的方法,将训练集 切分成很多份,然后进行组合,以扩大可用训练集的数量,按照样本切分和组 合方式。
交叉验证分为以下几种:HoldOut 检验、简单交叉检验、k 折交叉检验、留一交 叉检验。
124、关于数据分割下列说法错误的是?
A、 常见的分割方法有留出法 、交叉验证法 、 自助法 B、 测试误差就是泛化误差
C、 分层采样可以缓解留出法中带来的数据分割后分布不一致的问题 D、 留一法属于留出法中的其中一种
答案: B
125、关于交叉验证法和自助法下列说法正确的是?
A、 划分小数据集时我们可以采用留一法
B、 自助法有可能会导致数据集分割后的分布不一致
C、 当数据集较大时,为了节省时间我们可以选择留出法来分割 D、 交叉验证法能够保证数据分割之后的分布一致
答案: ABCD
126、关于线性回归下列说法正确的是?
A、线性回归是利用数理统计中的回归分析,被广泛用来确定两种或两种以上变 量间相互依赖的定量关系。
B、只有一个自变量的情况称为简单回归(形如:y = wx + b),大于一个自变 量的情况叫做多元回归(形如:y = w1x1 + w2x2 + … + b)。
C、 在机器学习中,线性回归这样的统计模型一般是用来通过确定回归方程中 的一组参数,来确定自变量和因变量之间确切关系的统计分析方法。
D、 线性回归采用的是最小二乘法来衡量模型的损失 答案: ABCD
127、下列对某学生期末成绩预测的代码中有误的一项是?
A、
from sklearn.linear_model import LinearRegression
# 1 获取数据
x = [[80, 86], [78, 80], [92, 94]] y = [84.2, 90, 93.4]
# 2 实例化一个估计器
estimator = LinearRegression() B、
# 3 使用 fit方法进行训练 estimator.fit(x, y)
C、
4 得出对应的系数
print("线性回归的系数是:\n", estimator.coef_) D、
# 5 得出预测结果
print("输出预测结果:\n", estimator.predict([100, 80])) 答案: D
128、关于损失函数下列说法正确的是?
A、 损失函数(Loss Function)又被称为代价函数(Cost Function)
B、 它是模型输出(预测值)和观测结果(真实值)之间概率分布差异的量化 C、 线性回归的损失函数形如:
D、 线性回归采用的是最小二乘法来衡量模型的损失 答案: ABCD
129、关于正规方程的说法正确的是?
A、 它是线性回归中参数向量 w 的解析式,通过损失函数求解而来 B、 方阵 XTX 一定是可逆的
C、 使用正规方程求解最优参数时,它的计算规模随着数据维度的增加而增加 D、 X 是特征矩阵,y 是预测值
答案: AC
130、关于梯度下降说法正确的是?
A、 目的是求解一组权重 w 的值,使得关于 w 的函数 J(w) 取得最小值 B、 梯度的本质是一个矢量
C、 沿着负梯度的方向是函数值下降最快的方向
D、 权重的迭代公式中步长需要手动设定,不可过大或过小 答案: ABCD
131、下列关于其它常见的梯度下降方法的描述正确的是?
A、 全梯度下降每次更新权重都要使用全部的数据集数据
B、 随机梯度下降每次更新权重只需要使用数据集中某一个样本的数据
C、 小批量梯度下降法综合了 FGD 和 SGD 的优势,缓解了两者的缺陷 D、 SAG 在任何情况下都比其它梯度下降方法表现要好
答案: ABC
132、线性回归正则方程优化方法的API:
Sklearn. .linearRegression(); 梯度下降优 化方法求解线性回归的API:
Sklearn.linear_model. ()。
答案: linear_model; SGDRegressor;
133、下列关于欠拟合与过拟合的描述正确的是?
A、 欠拟合:模型学习到的特征过少,无法准确的预测未知样本
B、 过拟合:模型学习到的特征过多,导致模型只能在训练样本上得到较好的 预测结果,而在未知样本上的效果不好
C、 欠拟合可以通过增加特征来解决
D、 过拟合可以通过正则化 、异常值检测 、特征降维等方法来解决 答案: ABCD
134、下列关于过拟合问题的解决方式以及描述正确的是?
A、 Early stopping 是当模型训练到某个固定的验证错误率阈值时,及时停止模 型训练
B、 L2 正则化能够让模型产生一些平滑的权重系数
C、 使用 Lasso 回归也能防止模型产生过拟合,这时所得模型的权重系数部分 为 0
D、 使用岭回归能够防止训练所得的模型发生过拟合 答案: ABCD
135、sklearn.linear_model.Ridge() 岭回归的 API 中:alpha 表示正则化系
数,正则化系数越大,表示正则化力度 ,所得模型的权重系数 ; 反之,所得模型的权重系数 。
答案:越大;越小;越大
136、sklearn.linear_model.SGDRegressor() 使用随机梯度下降法优化的线 性回归 API:当它的参数 penalty 为 l2 、参数 loss 为 squared_loss 时, 达到的效果与上述的岭回归API 相同,只不过 SGDRegressor 只能使用
去优化损失,而 Ridge 的选择则更加丰富。
答案:随机梯度下降法;
137、训练好的模型进行保存和加载,
from sklearn.externals import joblib
1)模型保存:joblib. (model,
'file_name')
2)模型加载:estimator = joblib. ('file_name')
答案: dump;load;
138、以下关于逻辑回归的说法正确的是?
A、 逻辑回归应用在分类场景中
B、 逻辑回归使用了回归将特征数据进行拟合
C、 逻辑回归使用了 sigmoid 激活函数将回归的结果映射到了[0, 1]值域中 D、 逻辑回归的损失函数使用了自然对数
答案: ABCD
139、下列关于逻辑回归 API 的使用正确的是?
A、 需要在 sklearn 的线性模型 linear_model 中导出使用 B、 可以通过 solver 参数指定损失的优化方法
C、 可以通过 penalty 参数指定使用哪种正则化方式 D、 它默认将样本中类别数较多的一类当做正例
答案: ABC
140、下列关于逻辑回归模型的评估说法正确的是?
A、 我们在评估逻辑回归模型时只需要选择一种评估方法即可 B、 混淆矩阵能够帮助我们快速计算出其它分类模型指标
C、 召回率和精确率表达的是同样的概念
D、 ROC 曲线下与坐标轴形成的闭合区域的面积即为 AUC 指标的值 答案: BD
141、下列关于类别不平衡数据的处理方法描述错误的是?
A、 一般可以采用欠采样和过采样来缓解此类为题 B、 欠采样不会造成样本集中的部分数据流失
C、 过采样是通过复制现有类别数量少的样本来实现的 D、 过采样结合 SMOTE算法使用效果更佳
答案: B
142、下列关于 ROC 曲线的说法错误的是?
A、 绘制 ROC 曲线之前我们需要计算TPR 和 FPR B、 计算TPR 和 FPR 时不需要将样本进行排序
C、 每次计算TPR 和 FPR 都需要调整预测为正例的概率值
D、 将每对 TPR 和 FPR 值描绘在坐标系中并依次连接即可获得 ROC 曲线 答案: B
143、什么是线性回归?
答案:线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量 (特征值)和因变量(目标值)之间关系进行建模的一种分析方式。
144、简述欠拟合与过拟合产生的原因及解决办法。
答案:欠拟合原因是学习到数据的特征过少。解决办法:1)添加其他特征项,
2)添加多项式特征。
过拟合原因是原始特征过多,存在一些嘈杂特征, 模型过于复杂是因为模型尝 试去兼顾各个测试数据点。解决办法:1 )重新清洗数据,2)增大数据的训练 量,3)正则化,4)减少特征维度,防止维灾难
145、关于机器学习中的决策树学习,说法错误的是 ( )
A、 受生物进化启发 B、 属于归纳推理
C、 用于分类和预测 D、 自顶向下递推
答案: A
146、在构建决策树时,需要计算每个用来划分数据特征的得分,选择分数最 高的特征,以下可以作为得分的是 ( )
A、 熵 B、 基尼系数 C、 训练误差 D、 以上都是
答案: D
147、在决策树学习过程中,( )可能会导致问题数据(特征相同但是标签不
同)
A、 数据噪音 B、 现有特征不足以区分或决策
B、 数据错误 D、 以上都是
答案: D
148、根据信息增益来构造决策树的算法是 ( )
A、 ID3 决策树 B、 递归 C、 归约 D、 FIFO
答案: A
149、决策树构成顺序是 ( )
A、 特征选择、决策树生成、决策树剪枝 B、 决策树剪枝、特征选择、决策树生成 C、 决策树生成、决策树剪枝、特征选择 D、 特征选择、决策树剪枝、决策树生成 答案: A
150、决策树是一种常用的机器学习算法,既可用于 ,也可用于 。
答案: 分类;回归
151、决策树拥有很强的数据议合能力,往往会产生 现象,因此需要对决策树 进行剪枝。
答案: 信息增益;
152、信息增益比定义为
答案: 信息增益与数据集在属性 A i 上的分布的熵之比;
153、使用预剪枝的策略容易造成决策树的
答案: 欠拟合;
154、如果对决策树进行剪枝可以减小决策树的复杂度,提高决策树的专一性 能力。 (×)
155、经验损失可以使用每个子树上的样本分布的熵之和来描述。 (×)
156、结构损失可以用叶节点的个数来描述。 (✓)
157、决策树本身是一种贪心的策略,不一定能够得到全局的最优解。 (✓)
158、由于 train_ test_ split 函数在划分数据集时存在一定的随机性,所以
重复运行上述代码可能会得到不同的准确率。 (✓)
159、决策树的思想是什么?
答案:决策树的思想非常简单:给定个样本集合,其中每个样本由若干属性表
示 ,决策树通过贪心的策略不断挑选最优的属性。对于离散属性变量以不同的 属性值作为节点;对于连续性变量,以属性值的特定分割点作为节点。将每个 样本划分到不同的子树。再在各棵子树上业递归对子树上的样本进行划分,直 到满足一定的终止条件为止。
160、一般情况下,非叶节点会包含五个数据,分别是什么?
答案:每个非叶节点包含五个数据,分别是:决策条件、熵、样本数、每个类别 中样本的个数、类别名称。
161、请简述预剪枝过程的思路。
答案:对决策树进行预剪枝时一般通过验证集进行辅助。每次选择信息增益最 大的属性进行划分时,应首先在验证集上对模型进行测试。如果划分之后能够提 高验证集的准确率,则进行划分;否则,将当前节点作为叶节点,并以当前节点包 含的样本中出现次数最多的样本作为当前节点的预测值。
162、后剪枝过程中的代价函数是什么?
答案:代价函数定义为经验损失和结构损失两个部分:经验损失是对模型性能的 度量,结构损失是对模型复杂度的度量。
163、什么时候停止剪枝?
答案:显然,剪枝后叶节点的数目M 会减少,决策树的复杂度会降低。而决策树 的经验误差则可能会提高,此时决策树的结构损失占主导地位。代价函数的值 首先会降低,到达某一个平衡点后,代价函数越过这个点,模型的经验风险会占 据主导地位,代价函数的值会升高,此时停止剪枝。
164、 最早用于决策树模型的特征选择指标是,也是 ID3 算法的核心。
答案: 信息增益;
165、下列关于 PCA 和 LDA 的描述正确是( )。
A、 PCA 和 LDA 都可对高维数据进行降维 B、 PCA 可以保留类的信息
C、 LDA 可以保留类的信息 D、 PCA 一般选择方差大的方向进行投影
答案: ACD
166、创建决策树的基本原则就是简单的就是最好的,只要能实现同样的功
能,决策树越简单越好。 (✓)
167、使用剪枝的方法可以避免决策树发生过拟合的问题,一般是从叶子节点
开始合并。 (✓)
168、下列说法正确的是( )。
A、 离群(异常)点可以是正确的数据对象或者值 B、 离散属性总是具有有限个值
C、 噪声和异常是数据错误这一相同表述的两种叫法 D、 连续属性离散化可能需要考虑特定的领域知识
答案: AD
169、下面有关过拟合的认识错误的是( )。
A、 过拟合是因为训练样本太多了,把训练样本的规律都拟合进去了,因此检测 样本的准确率也很高
B、 减少过拟合的方法可以通过降低决策树的复杂度,例如减少决策树的深度 C、 判断模型是否过拟合可以看随着训练的增加,学习到的模型准确度高了,但 检测样本的准确率下降
D、 分类算法都可能会遇到过拟合现象 答案: A
170、有关决策树的分类方法正确的是( )。
A、 决策树不能确定对决策属性起重要影响的变量 B、 决策树可以用于发现多种样本的特征
C、 决策树可用于确定相似的样本 D、 决策树结构越复杂越有效
答案: B
171、有关决策树的说法哪个是错误的( )。
A、 可以转化为决策规则 B、 对新样本起到分类预测的作用
C、 决策树的深度越大越好 D、 决策树的算法和神经网络的原理不一样
答案: C
172、在分类型机器学习过程中,下面有关分类算法的选择说法错误的是( )。
A、 算法参数是默认调好的,分析过程不需要修改 B、 分类算法的优劣需要通过实验比较才能确定
C、 分类算法对数据有一定的要求,一种算法不能解决所有的分类问题
D、 分类算法的结果只要训练样本准确度高就可以使用了 答案: AD
173、以下哪个算法不是基于规则的分类器( )。
A、 ID3 B、 C4.5 C、 贝叶斯分类器 D、 C5.0
答案: C
174、从历史的样本分析中分析某个应聘者是否能适合某个岗位,以指导招聘人 员选拨新员工,需要以下哪种分析( )。
A、 分类分析 B、 回归分析 C、 聚类 D、 内容检索
答案: A
175、下面有关决策树剪枝的说法错误的是( )。
A、 决策树剪枝的目的是为了减少训练过程的过拟合,从而提升决策树模型的准 确性
B、 决策树剪枝可以放在决策树的构造过程(预剪枝),也可以等决策树模型全部 建立后再做(后剪枝)
C、 决策树剪枝的依据是看某层某个非叶节点转换成叶节点后,训练样本集的检 验准确度是否提升
D、 决策树剪枝符合 Occam 剃刀原理(即机器学习模型越简单越好) 答案: C
176、有关决策树与特征工程的关系,以下说法错误的是( )。
A、 决策树可以得到对分类重要的属性,因此可以作为分类特征获取的一种方法 B、 如果要了解影响签署合同快慢的主要因素,可以使用决策树算法
C、 决策树获得的特征可以作为其他算法(例如回归算法的自变量)输入的依据 D、 决策树获得的特征是区分不同类别的最优特征
答案: D
177、通过聚集多个决策树模型来提高分类准确率的技术称为( )。
A、 合并 B、 聚集 C、 集成 D、 加权求和
答案: C
178、下列哪一种情况被称为过学习现象( )。
A、 在训练集上 A 优于 B,在测试集上 A 也优于 B B、 在训练集上 A 优于 B,在测试集上 B 优于 A
C、 相对于分类数据集,决策树过于简单
D、 在训练集上决策树的误差很小 答案: B
179、任何一个候选属性在生成的决策树中( )。
A、 必须被使用 B、 只能被使用一次
C、 可以被使用多次 D、 可以在任意位置被使用多次小
答案: B
180、以下关于决策树的说法正确的是( )。
A、 决策树越复杂,分类能力越强
B、 在性能相同的情况下,通常选择能充分利用各种属性的决策树 C、 对于某一个数据集,只有一个决策树可以将其完美分开
D、 对于某一个数据集,可以生成多个决策树 答案: D
181、决策树模型中建树的基本原则是( )。
A、 取值多的属性应放在上层 B、 取值少的属性应放在上层
C、 信息增益大的属性应放在上层 D、 应利用尽可能多的属性
答案: C
182、哪些情况下必须停止树的增长( )。
A、 当前数据子集的标签一致 B、 没有更多可用属性
C、 当前数据子集为空 D、 当前训练误差已经较低
答案: ABC
183、关于决策树剪枝操作正确的描述是( )。
A、 从中间节点开始 B、 从叶节点开始
C、 有助于保持树的平衡 D、 可以有效降低训练误差
答案: B
184、在决策树模型中,校验集的用途是( )。
A、 用于校验模型的训练误差 B、 用于校验模型的测试误差
C、 用于校验模型的正确性 D、 用于控制对模型的剪枝操作
答案: D
185、决策树模型中应如何妥善处理连续型属性( )。
A、 直接忽略 B、 利用固定阈值进行离散化
C、 根据信息增益选择阈值进行离散化 D、 随机选择数据标签发生变化的位
置进行离散化 答案: C
186、下列关于 C4.5 算法的描述不正确的是( )。
A、 C4.5 算法与 ID3 算法的总体思路是类似的
B、 C4.5 算法使用信息增益做为选择属性的度量标准
C、 C4.5 算法使用信息增益率做为选择属性的度量标准
D、 信息增益相同的属性,SplitInformation 值越大,信息增益率越小 答案: B
187、在决策树训练过程中,如何通过剪枝来减少过拟合?
答案:剪枝是用来缩小决策树的规模,从而降低最终算法的复杂度并提高预测 准确度,主要分为预剪枝和后剪枝两种方法。
预剪枝的思路是提前终止决策树的增长,在形成完全拟合训练样本集的决策树 之前就停止树的增长,避免决策树规模过大而产生过拟合。
后剪枝策略先让决策树完全生长,之后针对子树进行判断,用叶子结点或者子 树中最常用的分支替换子树,以此方式不断改进决策树,直至无法改进为止。
188、下面有关过拟合的认识错误的是( )。
A、 过拟合是因为训练样本太多了,把训练样本的规律都拟合进去了,因此检测 样本的准确率也很高
B、 减少过拟合的方法可以通过降低决策树的复杂度,例如减少决策树的深度 C、 判断模型是否过拟合可以看随着训练的增加,学习到的模型准确度高了,但 检测样本的准确率下降
D、 分类算法都可能会遇到过拟合现象 答案: A
189、有关决策树的分类方法正确的是( )。
A、 决策树不能确定对决策属性起重要影响的变量 B、 决策树可以用于发现多种样本的特征
C、 决策树可用于确定相似的样本 D、 决策树结构越复杂越有效
答案: B
190、有关决策树的说法哪个是错误的( )。
A、 可以转化为决策规则 B、 对新样本起到分类预测的作用
C、 决策树的深度越大越好 D、 决策树的算法和神经网络的原理不一样
答案: C
191、决策树中不包含以下哪种结点 ( )。
A、 根节点 B、 叶子结点 C、 内部节点
答案: C
192、从历史的样本分析中分析某个应聘者是否能适合某个岗位,以指导招聘人 员选拨新员工,需要以下哪种分析( )。
A、 分类分析 B、 回归分析 C、 聚类 D、 内容检索
答案: A
193、通过聚集多个决策树模型来提高分类准确率的技术称为( )。
A、 合并 B、 聚集 C、 集成 D、 加权求和
答案: C
194、如果从员工的日常表现数据预测其升职的可能性可以使用下面哪种机器 学习方法( )。
A、 关联分析 B、 线性回归分析 C、 聚类分析 D、 决策树 类算法
答案: D
195、任何一个候选属性在生成的决策树中( )。
A、 必须被使用 B、 只能被使用一次
C、 可以被使用多次 D、 可以在任意位置被使用多次小
答案: B
196、以下关于决策树的说法正确的是( )。
A、 决策树越复杂,分类能力越强
B、 在性能相同的情况下,通常选择能充分利用各种属性的决策树 C、 对于某一个数据集,只有一个决策树可以将其完美分开
D、 对于某一个数据集,可以生成多个决策树 答案: D
197、奥卡姆的剃刀指的是( )。
A、 Entities are not to be multiplied beyond necessity.
B、 Among competing hypotheses, the one with the fewest assumptions should be selected.
C、 The simplest explanation is usually the correct one. D、 中世纪英国上流社会的一种生活用品
答案: ABC
198、为什么一般不推荐在决策树中使用“生日 ”属性( )。
A、 星座信息更有说服力 B、 容易造成过学习
C、 可能的取值太多,计算量过大 D、 两个人可能生日相同
答案: B
199、下列对提升法的描述正确的是( )。
A、 每个单独训练样本都会被分配一个相同的初始权重
B、 增加分类正确样本的权重,降低分类错误样本的权重来提来分类器的准确率 C、 降低分类正确样本的权重,增加分类错误样本的权重来提来分类器的准确率 D、 如何组合每一轮产生的分类模型得出预测结果是提升法需要解决的问题
答案: ACD
200、下列关于随机森林的描述正确的是( )。
A、 与袋装法采用相同样本抽取方式
B、 每次从所有属性中随机抽取 t 个属性来训练分类器
C、 每次从所有样本中选取一定比例的样本来训练分类器
D、 可以使用不同的决策树的组合来构建分类模型 答案: ABCD
201、下列关于 C4.5 算法的描述不正确的是( )。
A、 C4.5 算法与 ID3 算法的总体思路是类似的
B、 C4.5 算法使用信息增益做为选择属性的度量标准
C、 C4.5 算法使用信息增益率做为选择属性的度量标准
D、 信息增益相同的属性,SplitInformation 值越大,信息增益率越小 答案: B
202、下列关于 CART 算法的描述正确的是( )。
A、 CART 算法采用的是 2 循环分割方法
B、 CART 算法使用Gini 指标来评价分支属性的效果 C、 CART 算法是 C4.5 的改进算法
D、 分支属性有多个取值的时候,需要对属性进行组合 答案: ABD
203、以下哪些措施有助于提高基础分类的多样性( )。
A、 采用不同的训练集 B、 采用不同类型的算法
C、 采用强的基础分类器 D、 采用不同的训练参数
答案: ABD
204、分类解决什么问题?
答案:分类算法是利用训练样本集获得分类函数即分类模型(分类器),从而实 现将数据集中的样本划分到各个类中。
分类模型通过学习训练样本中属性集与类别之间的潜在关系,并以此为依据对 新样本属于哪一类进行预测。
205、常用的分类算法包括( )。
A、 决策树 B、 支持向量机 C、 贝叶斯网络 D、 神经网络
答案: ABCD
206、简述决策树的生成过程。
答案:决策树的构建过程是按照属性的优先级或重要性来逐渐确定树的层次结 构,使其叶子结点尽可能属于同一类别,一般采用局部最优的贪心策略来构建 决策树。
207、举例说明连续属性离散化的几种方法。
答案:非监督离散化不需要使用分类属性值,相对简单,有等宽离散化、等频 离散化、聚类等方法。
等宽离散化将属性划分为宽度一致的若干个区间;
等频离散化将属性划分为若干个区间,每个区间的数量相等;
聚类将属性间根据特性划分为不同的簇,以此形式将连续属性离散化。
监督离散化常用的方法是通过选取极大化区间纯度的临界值来进行划分,C4.5 与 CART 算法中的连续属性离散化方法均属于监督离散化方法;
CART 算法使用Gini 系数作为区间纯度的度量标准; C4. 5 算法使用熵作为区间纯度的度量标准。
208、如何减少过拟合?
答案:解决过拟合问题,一方面要注意数据训练集的质量,选取具有代表性样 本的训练样本集。
另一方面要避免决策树过度增长,通过限制树的深度来减少数据中的噪声对于 决策树构建的影响,一般可以采取剪枝的方法。
209、下列关于决策树的概念描述错误的是?
A、 决策树算法需要构建树结构
B、 决策树上的每一个节点代表一个判断条件
C、 决策树上的每一个叶节点代表一种分类结果
D、 通过决策树不能明确特征的重要性程度 答案: D
210、下列关于熵和信息熵的描述错误的是?
A、 熵越大,系统的混乱程度越小
B、 信息熵是用来描述信息的完整性和有序性的
C、 信息的有序状态越一致 、数据越集中,信息熵越小,反之越大
D、 信息熵的计算使用到了以 2 为底的对数 答案: A
211、下列关于信息增益的描述正确的是?
A、 表达的是在得知某个特征的数据的前后信息熵的差值 B、 是 ID3 算法中的核心
C、 对类别数较多的特征比较青睐
D、 消除的不确定性越大,信息增益越小,表示这个特征越不重要 答案: AB
212、下列关于信息增益率的说法错误的是?
A、 能有效缓解信息增益所带来的弊端
B、 是在信息增益的基础上除以当前特征的固有值 C、 算法内部实现了预剪枝
D、 是 C4.5 算法中的核心 答案: C
213、下列关于基尼指数的说法正确的是?
A、 基尼指数就是基尼系数
B、 是 CART算法中用于划分属性的重要依据 C、 基尼指数的计算使用到了自然对数
D、 CART 算法不能用于回归场景 答案: B
214、下列关于决策树决策方法的描述正确的是?
A、 树节点分裂的依据是当前特征在当前条件下的重要性程度 B、 ID3 算法能使用具有连续属性的特征来构建树
C、 C4.5 算法对大数据集的处理效率很高
D、 CART 算法可以构建非二叉树 答案: A
215、下列关于剪枝的描述正确的是?
A、 剪枝是为了防止模型产生过拟合
B、 常用的剪枝方法有预剪枝和后剪枝
C、 预剪枝是提前设定树在构建过程中的限制参数 D、 后剪枝需要等树构建完成后再遍历节点
答案: D
216、下列关于特征提取的描述错误的是?
A、 目的是将非数字特征转换成数字特征
B、 字典特征提取可以处理任何类型的数据 C、 能将特征数据转换成one-hot 编码的形式
D、 DictVectorize()默认将数据处理表示成稀疏矩阵的形式 答案: B
217、下列关于英文文本特征提取的描述正确的是?
A、 可以使用 CountVectorizer 来完成 B、 它能统计英文单词的词频
C、 单个英文字母不被纳入统计范围
D、 通过stop_words 参数可以指定过滤不需要处理的词 答案: ABCD
218、下列关于中文文本特征提取的说法错误的是?
A、 可以使用 CountVectorizer 来完成
B、 不需要对中文文本进行分词处理,它能智能识别 C、 它能统计中文词的词频
D、 通过stop_words 参数同样可以指定过滤不需要处理的词 答案: B
219、下列关于 TFIDF 的说法正确的是?
A、 TF 指的是词在文本中出现的频率
B、 IDF 指的是逆向文档频率,表示词是否具有强区分度 C、 它表示的是某个词在当前文章中的重要性程度
D、 经常被用于文本分类 、垃圾邮件识别等场景中 答案: ABCD
220、下列关于决策树 API 的说法正确的是?
A、 分类决策树使用的是 sklearn.tree.DecisionTreeClassifier B、 可以使用参数 criterion 来指定决策树的决策算法
C、 可以使用参数 max_depth 来指定构建的决策树的深度
D、 可以使用参数 min_samples_split 来指定节点划分时需要的最少样本数 答案: ABCD
221、下列关于回归决策树与分类决策树的说法正确的是?
A、 回归决策树用于处理回归问题
B、 回归决策树处理的特征数据都是连续型的
C、 回归决策树利用最小平方误差来确定最佳分裂点
D、 分类决策树也能够处理连续型的特征 答案: ABCD
222、下列关于决策树可视化和算法的优缺点描述错误的是?
A、 决策树的可视化便于我们查看树的构建过程和各节点的分裂指标
B、 使用 sklearn.tree.export_graphviz 可将生成的决策树转换成 dot 文件 C、 决策树的结果可解释性强
D、 决策树结构越庞大,越不容易发生过拟合 答案: D
223、什么是预剪枝。
答案:预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计,若 当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记 为叶结点
224、sklearn.tree.DecisionTreeClassifier API 中“criterion ”、
“max_depth ”、“min_samples_split ”、“min_samples_leaf ”四个参数的
意义。
答案:criterion:特征选择标准
min_samples_split:内部节点再划分所需最小样本数
min_samples_leaf:叶子节点最少样本数 max_depth:决策树最大深度
225、移动运营商对客户进行细分,设计套餐和营销活动可以使用下面哪种机器 学习方法( )。 (单选题)
A、贝叶斯分类器 B、关联方法 C、聚类算法 D、多层前馈网络
答案: C
226、欧氏距离是闵可夫斯基距离阶为( )的特殊情况 (单选题)
A、 0.5 B、 1 C、 2 D、 ∞
答案: C
227、在层次聚类中( ) (单选题)
A、需要用户预先设定聚类的个数
B、需要用户预先设定聚类个数的范围
C、对于 N 个数据点,可形成 1 到 N 个簇
D、对于 N 个数据点,可形成 1 到 N/2 个簇 答案: C
228、关于 K-Means 算法的表述不正确的是( ) (单选题)
A、 算法开始时,K-Means 算法需要指定质心
B、 K-Means算法的效果不受初始质心选择的影响 C、 K-Means算法需要计算样本与质心之间的距离
D、 K-means 属于无监督学习 答案: B
229、K-Medoids 聚类与 K-Means 聚类最大的区别在于( ) (单选题)
A、 中心点的选取规则 B、 距离的计算方法
C、 聚类效果 D、 应用层面
答案: A
230、DBSCAN 算法属于( ) (单选题)
A、 划分聚类 B、 层次聚类 C、 完全聚类 D、 不完全聚类
答案: D
231、聚类过程中需要计算样本之间的 ,即样本之间距离的 。 (填空题)
答案: 相似程度;度量
232、闵可夫斯基距离将样本看作 来进行距离的度量。 (填空题)
答案: 0;1
233、聚类的宗旨是:类内距离 ,类间距离 。同一个类别中的样本应该尽可能 靠拢,不同类别的样本应该尽可能分离,以避免误分类的发生。 (填空题)
答案: 最小化;最大化
234、K-Means 聚类又称 。对于给定的欧式空间中的样本集合,K-Means 聚类将 样本集合划分为不同的子集,每个样本只属于其中的一个子集。 (填空题)
答案: K-均值聚类
235、如使用马氏距离作为度量时,两个样本之间的距离越小,相似度越小;距 离越大,相似度越大。 (×)
236、层次聚类只能自底向上进行。 (×)
237、聚类的目的是对样本集合进行自动分类,以发掘数据中隐藏的信息、结
构,从而发现可能的商业价值。 (✓)
238、层次聚类是一种按不同的尺度逐层进行聚类的一种聚类方法,聚类后的模
型呈树状.结构,每个样本处上于树中叶子节点的部分,非叶子节点表示不同尺 度下的类别。 (✓)
239、K-Means 算法是典型的 EM 算法,通过不断迭代更新每个类别的中心,直
到每个类别的中心不再改变或者满足指定的条件为止。 (✓)
240、简述聚类的目的,宗旨? (简答题)
答案:聚类的目的:是对样本集合进行自动分类,以发掘数据中隐藏的信息、结 构,从而发现可能的商业价值。聚类时,相似的样本被划分到相同的类别,不 同的样本被划分到不同的类别。
聚类的宗旨是:类内距离最小化,类间距离最大化。同一个类别中的样本应该尽 可能靠拢,不同类别的样本应该尽可能分离,以避免误分类的发生。
241、描述聚类的任务。 (简答题)
答案:聚类任务的形式化描述为:给定样本集合 D= {x1,x2..,xm} ,通过聚类算 法将样本划分到不同的类别,使得特征相似的样本被划分到同一个簇,不相似的 样本划分到不同的簇,最终形成 k 个簇 C={C1,C2,..,Ck}。聚类分为硬聚类和软 聚类。对于硬聚类,聚类之后形成的簇互不相交,即对任意的两个簇Ci和 Cj, 有 Ci∩Cj=0.对于软聚类,同一个样本可能同时属于多个类别。
242、层次聚类可自底向上进行也可自顶向下进行,过程是什么。 (简答题)
答案:在自顶向下进行时,首先将所有的样本都划分到同一个类别作为树的根 节点,然后再依据一定的距离度量方式将根节点划分成两棵子树,在子树上递 归进行划分直到子树中只剩一个样本为止,此时的子树为叶节点。在自底向上 进行时,首先将每一个样本都划分到一个单独的类,然后依据一定的距离度量 方式每次将距离最近的两个类别进行合并,直到所有的样本都合并为一个类别 为止。
243、什么是层次聚类? (简答题)
答案:层次聚类是一种按不同的尺度逐层进行聚类的一种聚类方法,聚类后的模 型呈树状.结构,每个样本处上于树中叶子节点的部分,非叶子节点表示不同尺度 下的类别。特别地,树的根节点表示将所有的样本都划分到同一个类别。
244、简单介绍 K-Means 聚类。 (简答题)
答案:K-Means 聚类又称 K-均值聚类。对于给定的欧式空间中的样本集合,K- Means 聚类将样本集合划分为不同的子集,每个样本只属于其中的一个子集。
K-Means算法是典型的 EM 算法,通过不断迭代更新每个类别的中心,直到每个 类别的中心不再改变或者满足指定的条件为止。
K-Means 聚类需要指定聚类的类别数目 K。首先,任意初始化 K 个不同的点,当 作每个类别的中心点,然后将样本集合中的每个样本划分到距离其最近的类。 然后对每个类别,以其中样本的均值作为新的类别中心,继续将每个样本划分 到距离其最近的类别,直到类别中心不再发生显著变化为止。
245、汉明距离规定样本各分量的取值只能为 或者 ,通过比较 两个样本的每个特征分量是否相同来进行距离度量。 (填空题)
答案: 0;1
246、下面哪种可视化方法比较适合聚类分析( )。 (单选题)
A、 直方图 B、 散点图 C、 条状图 D、 箱图
答案: B
247、下列关于聚类标准的说法正确的是( )。 (单选题)
A、 簇内距离和簇间聚类尽可能大 B、 簇内距离和簇间聚类尽可能小
C、 簇内距离尽量大、簇间聚类尽可能小 D、 簇内距离尽量小、簇间聚类尽
可能大
答案: D
248、下列关于聚类分析的度量标准轮廓系数的描述不准确的是( )。 (单选
题)
A、 轮廓系数的最大值是 1
B、 一个簇整体的轮廓系数越大,说明聚类的效果越好 C、 轮廓系数不可能出现负数
D、 聚类紧密的簇比聚类稀疏的簇的整体轮廓系数要大 答案: C
249、K-means 算法适合对不规则形状的数据进行聚类。 (×)
250、下列关于基于层次的聚类方法的描述不正确的是( )。 (多选题)
A、 按照层次聚类的过程分为自底向上和自顶向下 2 大类方法
B、 如果一直重复聚类过程的话,所有的样品最后可以归为一类 C、 自底向上的聚类方法是一种分裂聚类方法
D、 无论类间距离采用哪种计算方法,最终都是将最小距离的 2 个簇合并 答案: C
251、使用 Python 的 sklearn.cluster 库中的 DBSCAN 算法进行聚类的时候, 参数 eps 和 min_samples 的描述正确的是( )。 (多选题)
A、 eps 越大,聚出来的类越多 B、 eps 越小,聚出来的类越多
C、 min_samples 越小,一个簇中包含的样本点越少 D、 min_samples 越小,一个簇中包含的样本点越多 答案: ABC
252、以下哪些数据的特征会对聚类有影响( )。 (多选题)
A、 高维性 B、 样本规模 C、 噪声 D、 离群点
答案: ABCD
253、根据用户使用移动运营商的数据,可以为他们设计合适的套餐,使用哪种 挖掘方法比较合适( )。 (单选题)
A、 聚类 B、 回归分析 C、 神经网络 D、 关联分析
答案: A
254、有关聚类算法不正确的说法是( )。 (单选题)
A、 把分析的样本根据距离分组 B、 必须给出聚类的组数
C、 聚类是分类的基础 D、 聚类算法可以找出每组样本不同的特征
答案: B
255、对联通客户进行分组,以便根据各组的特点,策划不同的营销方案,需要客 户哪些数据( )。 (多选题)
A、 客户人口数据 B、 收入数据 C、 家庭男女组成
D、 客户长途市话以及漫游等通话数据 答案: ABD
256、有关机器学习算法选择的说法不正确的有( )。 (多选题)
A、 每种算法都有其使用范围,因此选择算法需要考虑具体处理的问题 B、 判断机器学习算法好坏在数据需求阶段就可以确定
C、 在分类前可以先做聚类分析
D、 对聚类问题可以任选一种聚类算法 答案: BD
257、下列说法错误的是 ( )。 (单选题)
A、 在聚类分析中,簇之间的相似性越大,簇内样本的差别越大,聚类的效果就越 好
B、 聚类分析可以看作是一种非监督的样本分组过程
C、 k 均值算法是一种常用的聚类算法,簇的个数算法不能自动确定 D、 k 均值算法的计算耗时与初始假设聚类中心的位置有关
答案: A
258、有关 k-means 下列说法正确的是( )。 (单选题)
A、 可以确定样本属性的重要性 B、 可以处理规则分布数据的聚类
C、 适合任意数据集的分组 D、 聚类的结果与初始选择的假设聚类中心无关
答案: B
259、聚类中的簇与分类中的类的关系是( )。 (单选题)
A、 簇即是类、类即是簇 B、 簇是类的一种具体表现形式
C、 类是簇的一种具体表现形式 D、 不是一码事,但实际中有一定联系
答案: D
260、在市场营销中,聚类最有可能帮助经营者( )。 (单选题)
A、 对客户群进行划分 B、 进行商品推荐
C、 进兴趣进行分类 D、 辅助商品定价
答案: A
261、一个好的聚类算法应当具备哪些潜质( )。 (多选题)
A、 能够处理非球形的数据分布 B、 能够处理噪点和离群点
C、 对样本输入序列不敏感 D、 对海量数据的可扩展性
答案: ABCD
262、关于数据预处理对聚类分析的影响的错误说法是( )。 (单选题)
A、 可能改变数据点之间的位置关系 B、 可能改变簇的个数
C、 有助于提升聚类质量 D、 可能产生不确定影响
答案: C
263、在基于聚类的图像分割例子中( )。 (单选题)
A、 色彩越复杂的图,需要的簇的个数越少 B、 属于同一个物体的像素对应同一个簇
C、 簇的个数越少,分割后图像越接近原始图像 D、 簇的个数越多,分割后图像越接近原始图像 答案: D
264、如何衡量聚类的质量( )。 (单选题)
A、 簇内数据点散布越小越好 B、 簇中心点之间的距离越大越好
C、 簇的个数越小越好 D、 需要考虑数据点间的连通性
答案: D
265、K-Means 算法中的初始中心点( )。 (单选题)
A、 可随意设置 B、 必须在每个簇的真实中心点的附近
C、 必须足够分散 D、 直接影响算法的收敛结果
答案: D
266、在层次型聚类中,两个点集之间的距离计算方法通常不包括( )。 (单选
题)
A、 由点集间距离最近的一对点的距离决定 B、 由点集间距离最远的一对点的距离决定
C、 由点集间随机的一对点的距离决定 D、 由点集间所有点的平均距离决定
答案: C
267、特征工程不包括( )。 (单选题)
A、 特征构建 B、 特征合并 C、 特征选择 D、 特征提取
答案: B
268、常见的概率分布有哪些( )。 (多选题)
A、 正态分布 B、 卡方分布 C、 二项分布 D、 Poisson 分布
答案: ABCD
269、特征提取有哪些常用的方法( )。 (多选题)
A、 主成分分析 B、 独立成分分析
C、 线性判别分析 D、 线性回归分析
答案: ABC
270、在混合高斯模型中,每一个数据点( )。 (单选题)
A、 只能被某一个高斯生成 B、 可以被所有高斯等概率生成
C、 可以被任一高斯生成但概率可能不等 D、 可以被任一高斯生成且概率
由高斯的权重决定 答案: C
271、在混合高斯模型中,每个高斯的权重( )。 (单选题)
A、 可以为负值 B、 相加必须等于 0
C、 相加必须等于 1 D、 须由用户预先设定
答案: C
272、以 K-Means 算法为例,期望最大化算法中的( )。 (单选题)
A、 模型参数指的是每个数据点的簇标号 B、 隐含参数指的是每个数据点的簇标号 C、 模型参数指的是簇的个数(即K 值)
D、 隐含参数指的是簇中心点坐标 答案: B
273、与 K-Means 相比,基于密度的 DBSCAN 的优点不包括( )。 (单选题)
A、 能妥善处理噪点和离群点 B、 能处理不规则的数据分布
C、 不需要预先设定簇的个数 D、 较低的计算复杂度
答案: D
274、在 DBSCAN 中,对数据点类型的划分中不包括( )。 (单选题)
A、 中心点 B、 核心点 C、 边缘点 D、 噪点
答案: A
275、在 DBSCAN 中,对噪音处理正确的是( )。 (单选题)
A、 划分到最近的簇 B、 所有噪点单独形成一个簇
C、 直接无视 D、 不做特别区分
答案: C
276、列举 4 种常用的聚类方法,并给出这些方法的适用场合。 (简答题)
答案:
1. 基于划分的聚类,多适用于中等体量的数据集,数据集越大,越有可能陷入 局部最小。
2. 基于层次的聚类有自顶向下和自底向上两种,实际使用中根据数据特点及目 标“聚类 ”结果个数来使用哪一种。
3. 基于密度的聚类对噪声数据的处理比较好,但不适合对参数设置非常敏感的 场合
4.基于模型的聚类适用于数据的“类 ”不那么确定,而表现为概率形式的场 合。
277、简述基于层次聚类的基本思想。 (简答题)
答案:层次聚类的核心思想就是通过对数据集按照层次,把数据划分到不同层 的簇,从而形成一个树形的聚类结构。层次聚类算法可以揭示数据的分层结
构,在树形结构上不同层次进行划分,可以得到不同粒度的聚类结果。
278、聚类分析的目的是什么? (简答题)
答案:聚类分析用于对未知类别的样本进行划分,将它们按照一定的规则划分 成若干个类族,把相似(距高相近)的样本聚在同一个类簇中, 把不相似的样本 分为不同类簇,从而揭示样本之间内在的性质以及相互之间的联系规律。
279、常见的聚类有哪些方法?这些方法分别适用什么场合?(简答题)
答案:基于划分的聚类,多适用于中等体量的数据集,数据集越大,越有可能 陷入局部最小。
基于层次的聚类有自顶向下和自底向上两种,实际使用中根据数据特点及目标 “聚类 ”结果个数来使用哪一种。
基于密度的聚类对噪声数据的处理比较好,但不适合对参数设置非常敏感的场 合基于网格的聚类适用于需要执行效率高,而对参数不敏感、无不规则分布的 数据等场合。
基于模型的聚类适用于数据的“类 ”不那么确定,而表现为概率形式的场合。
280、评价聚类算法的好坏可以从哪些方面入手?(简答题)
答案:良好的可伸缩性、处理不同类型数据的能力、处理噪声数据的能力、对 样本顺序的不敏感性、约束条件下的表现、易解释性和易用性。
具体评价指标包括外部指标如 Rand 统计量、F 值、Jaccard 指数、FM 指数等; 内部指标如欧式距离、曼哈顿距离、切比雪夫距离、明科夫斯基距离、紧密 度、分隔度、戴维森堡丁指数、邓恩指数等。
281、 k-均值算法的聚类数 k 如何确定。 (简答题)
答案:第一种方法:与层次聚类算法结合,先通过层次聚类算法得出大致的聚 类数目,并且获得一个初始聚类结果,然后再通过 k-均值算法改进聚类结果
第二种方法:基于系统演化的方法,将数据集视为伪热力学系统,在分裂和合 并过程中,将系统演化到稳定平衡状态从而确定 k 值
282、下列关于聚类标准的说法正确的是( )。 (单选题)
A、 簇内距离和簇间聚类尽可能大 B、 簇内距离和簇间聚类尽可能小
C、 簇内距离尽量大、簇间聚类尽可能小 D、 簇内距离尽量小、簇间聚类尽可能大 答案: D
283、下列关于聚类分析的度量标准轮廓系数的描述不准确的是( )。 (单选 题)
A、 轮廓系数的最大值是 1
B、 一个簇整体的轮廓系数越大,说明聚类的效果越好 C、 轮廓系数不可能出现负数
D、 聚类紧密的簇比聚类稀疏的簇的整体轮廓系数要大 答案: C
284、使用 Python 的 sklearn.cluster 库中的 DBSCAN 算法进行聚类的时候, 参数 eps 和 min_samples 的描述正确的是( )。 (多选题)
A、 eps 越大,聚出来的类越多 B、 eps 越小,聚出来的类越多
C、 min_samples 越小,一个簇中包含的样本点越少 D、 min_samples 越小,一个簇中包含的样本点越多 答案: BC
285、下列关于基于层次的聚类方法的描述不正确的是( )。 (单选题)
A、 按照层次聚类的过程分为自底向上和自顶向下 2 大类方法
B、 如果一直重复聚类过程的话,所有的样品最后可以归为一类 C、 自底向上的聚类方法是一种分裂聚类方法
D、 无论类间距离采用哪种计算方法,最终都是将最小距离的 2 个簇合并 答案: C
286、下列关于聚类算法的描述错误的是? (单选题)
A、 聚类算法是一种无监督的机器学习算法
B、 聚类算法通过计算样本之间的相似度来确定它是属于哪一个聚集类别 C、 在聚类算法中样本之间的相似度只能通过欧式距离来衡量
D、 不同的聚类准则产生的聚类效果也不同 答案: C
287、下列关于 Kmeans算法的实现流程:
A) 将该未知样本点归类为与 D 值最小时的中心点相同的类别;
B) 计算未知样本点分别到这 K 个中心点的距离D;
C) 重复上述过程,直至新的中心点与旧的中心点一致,则迭代停止,将最后
这次的聚类作为最优聚类结果。
D) 随机初始化 K 个中心点;
E) 计算这 K 个分类簇的均值分别作为这 K 个簇新的中心点;
正确顺序 。 (填空题)
答案:DBAEC;
288、下列可用于评估聚类算法的方法或指标的是(多选题)
A、 SSE:误差平方和 B、 肘部法 C、 Silhouette Coefficient: SC 系数
D、 Calinski-Harabasz Index: CH 指数 E、 均方根误差:MSE
答案: ABCD
289、下列关于聚类算法的说法错误的是(单选题)
A、 Kmeans 算法实现简单,聚类结果可解释性强
B、 Kmeans 算法对 K 值敏感,初始值取值不当会很容易得到局部最优聚类结果 C、 K-means++在初始化中心点时,让前后两次选取的中心点之间的距离尽可 能的大
D、 二分 K-means 是对所有聚类中误差的平方和最小的类进行二分划分 答案: D
290、常见的概率分布有哪些( )。 (多选题)
A、 正态分布 B、 卡方分布 C、 二项分布 D、 Poisson 分布
答案: ABCD
291、朴素贝叶斯分类器的特征不包括( ) (单选题)
A、 孤立的噪声点对该分类器影响不大 B、 数据的缺失值影响不大
C、 要求数据的属性相互独立 D、 条件独立的假设可能不成立
答案: C
292、朴素贝叶斯分类器基于( )假设 (单选题)
A、 样本分布独立性 B、 属性条件独立性
C、 后验概率已知 D、 先验概率已知
答案: B
293、朴素贝叶斯分类器为( ) (单选题)
A、 生成模型 B、 判别模型 C、 统计模型 D、 预算模型
答案: A
294、下列关于朴素贝叶斯分类器正确的是( ) (单选题)
A、 朴素贝叶斯分类器的变量必须是非连续型变量
B、 朴素贝叶斯模型中的特征和类别变量之间也要相互独立 C、 朴素贝叶斯分类器对于小样本数据集效果不如决策树好
D、 朴素贝叶斯模型分类时需要计算各种类别的概率,取其中概率最大者为分 类预测值
答案: D
295、 是一种有监督的统计学过滤器,在垃圾邮件过滤、信息检索等领域十分 常用。 (填空题)
答案:朴素贝叶斯;
296、极大似然估计的思想是:找到这样一个参数 p,它使所有随机变量的 最 大。 (填空题)
答案:联合概率;
297、朴素贝叶斯分类器假设样本特征之间 。 (填空题)
答案: 相互独立;
298、当样本集合不够大时,可能无法覆盖特征的所有可能取值,为了避免这 样的问题,实际应用中常采用 。 (填空题)
答案: 平滑处理;
299、朴素贝叶斯思想的本质是极大似然估计。 (✓)
300、用极大似然法估计值时,概率分布模型只能是连续的。 (×)
301、已知整体的概率分布模型 ,但是模型的参数 未知时,可以用极
大似然估计来估计 的值。 (✓)
302、在运用极大似然法求解概率时,令似然函数 对参数 的导数为
0,可以得到 的最优解。 (✓)
303、概率论贝叶斯公式描述中, 称为先验概率, 称为后验概率。
(✓)
304、一个人得流感头疼的概率和头疼得流感的概率是一样的。 (×)
305、贝叶斯网络推理就是用概率的方法进行( )推理。 (单选题)
A、 确定 B、 不确定 C、 分类 D、 聚类
答案: B
306、贝叶斯网络由下面哪几部分组成( )。 (多选题)
A、 参数 θ B、 联合概率 p C、 结构 G D、 各个变量的先验概率
答案: AC
307、使用贝叶斯网络进行文本分类时,如果有 100 个单词,词汇量是 50000, 需要计算概率的总数是( )。 (单选题)
A、 1000000 B、 10000000 C、 100000 D、 10000
答案: B
308、使用贝叶斯网络进行疾病诊断的时候,一般知道先验概率时的准确率要
比不知道先验概率时的准确率要高。 (✓)
309、当化验报告呈阳性的时候,正确的做法是( )。 (单选题)
A、 心如死灰,万念俱灭 B、 散尽家财,及时行乐
C、 置若罔闻,我行我素 D、 及时复检,防止假阳性
答案: D
310、下面有关朴素贝叶斯算法的认识错误的是( )。 (单选题)
A、 与决策树算法不同,朴素贝叶斯模型是比较各种类别出现的概率大小确定样 本的类别
B、 朴素贝叶斯算法是一种使用概率理论的非监督分类算法
C、 朴素贝叶斯模型需要先确定特征,并根据样本计算相关的先验概率,再计算 特征条件下的分类变量的后验概率
D、 朴素贝叶斯模型课用于垃圾邮件分类、微博用户情感的识别等场景 答案: B
311、有关朴素贝叶斯分类器的说法正确的是( )。 (单选题)
A、 朴素贝叶斯分类器的变量必须是非连续性变量
B、 朴素贝叶斯模型分类时需要计算属于各种类别的概率,取其中概率最大的类 别最为分类预测值
C、 朴素贝叶斯模型中的特征和类别变量之间也要相互独立 D、 朴素贝叶斯分类器对于小样本数据集效果不如决策树好 答案: B
312、朴素贝叶斯分类器的朴素之处在于( )。 (单选题)
A、 只能处理低维属性 B、 只能处理离散型属性
C、 分类效果一般 D、 属性之间的条件独立性假设
答案: D
313、以下关于两个变量 X 和 Y 说法正确的是( )。 (单选题)
A、 若独立一定不相关 B、 若不相关一定独立
C、 若独立不一定不相关 D、 我已经晕了
答案: A
314、两个事件 A 和 B 条件独立指的是( )。 (单选题)
A、 P(A, B)=P(A)P(B) B、 P(A, B)=P(A|B)P(B)
C、 P(A|B, C)=P(A|C) D、 P(A|B)=P(A)
答案: C
315、如果两个事件独立,那么这两个事件是不相关的。 (×)
316、以下关于拉普拉斯平滑说法正确的是( )。 (单选题)
A、 防止计算条件概率时分母为零 B、 防止计算条件概率时分子为零
C、 用于解决训练集中的噪声 D、 用于解决训练集中的异常值
答案: B
317、下面有关贝叶斯网络认识错误的是( )。 (单选题)
A、 贝叶斯网络克服了朴素贝叶斯特征之间需要相互独立等不足
B、 贝叶斯网络设计过程中主要是根据领域知识确定贝叶斯网络结构、确定网 络参数(条件概率表)
C、 贝叶斯网络变量之间的因果关系和相应的概率部分是人工专家指定,不需要 样本训练
D、 贝叶斯网络的参数主要是条件概率表中的概率值,可以使用最大似然估计或 贝叶斯估计等方法
答案: C
318、下面有关贝叶斯网络的说法错误的有哪些( )。 (多选题)
A、 贝叶斯网络结构可以由机器自动完成
B、 贝叶斯网络的搭建需要考虑变量之间的因果关系,这是贝叶斯网络推理的基 础
C、 作为一种监督学习算法,贝叶斯网络也需要大量的样本分析变量之间的概率
D、 贝叶斯网络的推理只能由原因变量,计算其联合概率,推出目标(分类)变量 的条件概率,而不能由目标变量推出原因变量的可能性
答案: AD
319、贝叶斯网络就是使用有向无环图来表示变量间依赖关系的概率图模型。
(✓)
320、贝叶斯网络构建的方法包括( )。 (多选题)
A、 根据问题和领域专家知识手工构建 B、 通过对数据进行分析得
到贝叶斯网络
C、 根据问题自动创建 D、 综合领域专家知识是数
据分析得到贝叶斯网络 答案: ABD
321、贝叶斯网络学习包括参数学习和结构学习。 (✓)
322、贝叶斯网络推理方法包括( )。 (多选题)
A、 从左至右 B、 自顶向下 C、 自底向上 D、 从右至左
答案: BC
323、以下哪些不是贝叶斯网络的应用场景( )。 (多选题)
A、 中文分词 B、 机器故障诊断
C、 招聘人才选拔规则 D、 根据客户的消费行为对其进行分组
答案: CD
324、在文本分类应用中,关于词袋模型的描述正确的是( )。 (单选题)
A、 任何一个单词只能存在于某一个词袋中
B、 一个单词可能存在于多个词袋中但频率不同 C、 所有词袋中单词的并集就等同于词汇表
D、 词袋模型描述的是单词在所有文本中出现的频率 答案: B
325、使用贝叶斯网络进行分类的时候,知道的相关信息越多,判断的准确率越
高。 (✓)
326、贝叶斯网络推理就是用概率的方法进行( )推理。 (单选题)
A、 确定 B、 不确定 C、 分类 D、 聚类
答案: B
327、已知池中有两种鱼,比例为 7:3,若随机捞上一条,按照 70%和 30%概率随机 猜测其种类,则整体误差最接近于( )。 (单选题)
A、 20% B、 30% C、 40% D、 50%
答案: C
328、已知甲乙丙三人射击命中率分别为 0.8,0.6 和 0.5,若每人各开一枪,则目 标被命中的概率最接近( )。 (单选题)
A、 0.85 B、 0.90 C、 0.95 D、 1.00
答案: C
329、下列关于朴素贝叶斯算法优缺点的描述错误的是(单选题)
A、 分类准确度较高,依托于经典的数学理论 B、 适用于小规模数据集
C、 特征之间相互独立的理论假设大大降低了贝叶斯公式的计算量 D、 朴素贝叶斯属于判别模型
答案: D
330、支持向量指的是( ) (单选题)
A、 对原始数据进行采样得到的样本点
B、 决定分类面可以平移的范围的数据点 C、 位于分类面上的点
D、 能够被正确分类的数据点 答案: B
331、下面关于支持向量机(SVM)的描述错误的是( ) (单选题)
A、 是一种监督式学习的方法 B、 可用于多分类的问题
C、 支持非线性的核函数 D、 是一种生成式模型
答案: D
332、下面关于支持向量机(SVM)的描述错误的是( ) (单选题)
A、 对于分类问题,支持向量机需要找到与边缘点距离最大的分界线,从而确 定支持向量
B、 支持向量机的核函数负责输入变量与分类变量之间的映射 C、 支持向量机可根据主题对新闻进行分类
D、 支持向量机不能处理分界线为曲线的多分类问题 答案: D
333、支持向量机中 margin 指( ) (单选题)
A、 盈利率 B、 损失误差 C、 间隔 D、 保证金
答案: C
334、选择 margin 最大的分类器的原因是( ) (单选题)
A、 所需的支持向量个数最少 B、 计算复杂度最低
C、 训练误差最低 D、 有望获得较低的测试误差
答案: D
335、典型的支持向量机是一种 ,其基本思想是:对于空间中的样本点集合, 可用一个超平面将样本点分成两部分,一部分属于正类,一部分属于负类。
(填空题)
答案: 二分类算法;
336、在保证 的同时,使得距离超平面最近的点到超平面的距离尽可能的大。 (填空题)
答案: 超平面能够正确将样本进行分类;
337、在感知机模型中,优化的目标是:在满足模型 的约束条件下,使得样本 集合的所有点到分割超平面的距离最小,这样的超平面可能存在无数个。 (填 空题)
答案: 能够正确分类;
338、线性可分支持向量机假设样本空间中的样本能够通过一个超平面分隔开 来,但有的情况下,即使样本集合线性可分,线性可分支持向量机给出的 H 1 和 H 2 之间的距离可能非常小。这种情况一般意味着模型的泛化能力降低,也 就是产生了 。 (填空题)
答案: 过拟合;
339、支持向量机的优化目标就是找到一个超平面,使得空间中距离超平面最
近的点到超平面的集合间隔尽可能大,这些点称为支持向量。 (✓)
340、多分类学习的基本思路是“拆解法 ”,最经典的拆分策略有三种:一对 一(OvO),多对一(MvO),多对多(MvM)。 (×)
341、纠错输出码是一种常用的技术,分为编码和解码两个阶段。 (✓)
342、支持向量机与感知机模型很大的一个区别是,由于优化目标的不同,造
成的解的个数不同。 (✓)
343、能够在特征空间使得样本线性可分的核函数有无数个,具体的哪个核函
数对哪个样本最好需要根据实际情况选择。 (✓)
344、常用的核函数有哪些? (简答题)
答案:(1)线性核函数,即支持向量机中的形式;(2)多项式核函数;
(3)高斯核函数,又被称为径向基(RBF)函数;(4)Logistics 函数
345、什么情况下需要使用线性支持向量机来求解? (简答题)
答案:生产环境中,我们获取到的数据往往存在噪声(正类中混入少量的负类 样本,负类中混入少量的正类样本),从而使得数据变得线性不可分。在这种 情况下,需要用到该向量机来进行求解。
346、为什么当两个模型的训练误差相同或接近的时候,通常会选择比较简单 的一个( )。 (单选题)
A、 复杂模型的测试误差一定较大 B、 简单模型的测试误差一定较小
C、 在相同置信度条件下,复杂模型的测试误差上界较大 D、 只是一种经验,并没有理论依据
答案: C
347、在 SVM 领域中,margin 的含义是( )。 (单选题)
A、 盈利率 B、 马金 C、 间隔 D、 保证金
答案: C
348、线性 SVM 和一般线性分类器的区别主要是( )。 (单选题)
A、 是否进行了空间映射 B、 是否确保间隔最大化
C、 是否能处理线性不可分问题 D、 训练误差通常较低
答案: B
349、假设超平面为 w*x+b=0,其 margin 的大小为( )。 (单选题)
A、 1/|w| B、 2/|w| C、 |b|/|w| D、 |b|/|w
答案: B
350、在 SVM 的求解过程中,支持向量与α 的关系是( )。 (单选题)
A、 alpha=0 的数据点是支持向量 B、 alpha>0 的数据点是支持向量
C、 alpha<0 的数据点是支持向量 D、 两者没有固定关系
答案: B
351、在 SVM 当中,主要的运算形式是( )。 (×)
352、软间隔(soft margin)的主要用途是( )。 (单选题)
A、 解决线性不可分问题 B、 解决不完全线性可分问题
C、 降低算法时间复杂度 D、 提高算法分类精确
答案: B
353、在 SVM 当中进行空间映射的主要目的是( )。 (单选题)
A、 降低计算复杂度 B、 提取较为重要的特征
C、 对原始数据进行标准化 D、 提高原始问题的可分性
答案: D
354、对于 SVM,在映射后的高维空间直接进行计算的主要问题是( )。 (单
选题)
A、 模型可解释性差 B、 计算复杂度高
C、 容易出现奇异矩阵 D、 容易出现稀疏矩阵
答案: B
355、通过运用核函数,我们可以( )。 (多选题)
A、 提高算法的可解释性 B、 生成数量较少的支持向量
C、 生成数量较多的支持向量 D、 避免高维空间运算,降低算法复杂度
答案: D
356、常用的核函数包括( )。 (多选题)
A、 线性核函数 B、 高斯核函数
C、 多项式核函数 D、 sigmoid 和函数
答案: ABCD
357、使用支持向量机对新闻主题进行分类的步骤不包括( )。 (单选题)
A、 获取数据 B、 将文本转化为向量
C、 选取特征值 D、 分割数据集
答案: C
358、使用支持向量机检测信用卡欺诈的案例中对数据进行的处理包括( )。 (多选题)
A、 载入数据 B、 分割数据 C、 标准化数据 D、 处理缺失数据
答案: ABC
359、列举支持向量机常用的 3 种核函数,并说明他们的优点。 (简答题)
答案:Sigmoid 核:来源于 MLP 中的激活函数,SVM 使用 Sigmoid 相当于一个两 层的感知机网络。
360、作为一种分类算法,支持向量机的基本原理是什么? (简答题)
答案:即寻找到一个超平面使样本分成两类,并且间隔最大。
361、支持向量机是一个分类器,超平面上的数据是支持向量,超平面以外的 数据可以辅助分类。 (×)
362、一个分类模型的 capacity 指的是( )。 (单选题)
A、 能够解决几分类问题 B、 能解决多大规模的问题
C、 能将多少个点分开,不论如何分配标签 D、 能达到的精确度
答案: C
363、SVM 核心技术的发展经历了( )。 (单选题)
A、 10 年 B、 20 年 C、 30 年 D、 40 年
答案: C
364、在 SVM 当中,主要的运算形式是( )。 (单选题)
A、 向量内积 B、 矩阵乘法 C、 矩阵转置 D、 矩阵分解
答案: A
365、通过运用核函数,我们可以( )。 (单选题)
A、 提高算法的可解释性 B、 生成数量较少的支持向量
C、 生成数量较多的支持向量 D、 避免高维空间运算,降低算法复杂度
答案: D
366、列举支持向量机常用的 3 种核函数,并说明他们的优点。 (简答题)
答案:
线性核函数:主要用于线性可分的情况。
多项式核函数:一种非稳态核函数,适合于正交归一化后的数据。
径向基核函数:具有很强的灵活性,应用广泛。大多数情况下有较好的性能。
Sigmoid 核:来源于 MLP 中的激活函数,SVM 使用 Sigmoid 相当于一个两层的感 知机网络。
367、核函数的选择对支持向量机的性能有何影响。 (简答题)
答案:只要一个对称函数所对应的核矩阵半正定,它就能作为核函数使用。 事实上,对于一个半正定核矩阵,总能找到一个与之对应的映射。
核函数的使用,不一定能够准确的划分,只能说使用哪个核函数,能够逼近真 实的划分效果。
因此特征空间的好坏对支持向量机的性能至关重要。在不知道特征映射的形式 时,我们并不知道什么样的核函数是合适的,而核函数也仅是隐式定义了这个 特征空间。
于是,核函数的选择成为了支持向量机的最大变数。若核函数选择不合适,则 意味着映射到一个不合适的特征空间,很可能导致性能不佳。
368、下列关于 SVM 的描述错误的是(单选题)
A、 它的全称为支撑向量机( Supported Vector Machine)
B、 它的主要任务是找到一个超平面将不同的样本划分开来 C、 硬间隔和软间隔都是 SVM 分割超平面中的一种
D、 sklearn 中的 SVM 模型可以通过调小 C参数来减少间隔违例 答案: D
369、下列关于 SVM 的 API 使用的正确顺序是 :
A)实例化模型:ss = svm.SVC()
B)构造样本数据:X = [[0, 0], [1, 1]], y = [0, 1]
C)样本预测:ss.predict([[2., 2.]])
D) from sklearn import svm
E)模型训练:ss.fit(X, y) (填空题)
答案: DBAEC;
370、下列关于 SVM 实现原理的描述正确的是(多选题)
A、 SVM 的分类决策函数就是它的分类超平面的代数表达式 B、 核函数的作用就是将特征映射到更高维度的特征空间
C、 离 SVM 分割超平面最近且满足条件的样本点叫做支撑向量 D、 分割间距越小 SVM 的分割性能越好
答案: ABC
371、下列关于 SVM 目标函数的推导描述错误的是(单选题)
A、 目标函数带有约束条件,需要使用拉格朗日乘子法求解极值 B、 通过拉格朗日乘子法得到的目标函数是求解极大极小值问题 C、 需要通过对偶问题将目标函数转换为求解极大极小值
D、 最终的目标函数可转换为求解下式的极小值 答案: B
372、下列关于常见分类损失函数的描述正确的是(多选题)
A、 0/1 损失只要样本被正确分类,损失就是 0 ,否则损失是 1
B、 合页损失不仅要求样本被正确分类,还要求样本离分割面的距离越大越好 C、 logistic 损失与自然对数有关
D、 logistic 损失函数不易出现过拟合 答案: ABC
373、下列关于 SVM 中核函数的描述错误的是(单选题)
A、 引入核函数的目的就是为了解决线性不可分的问题
B、 核函数往往是将原始特征向更低维度的空间进行映射 C、 常用的核函数有线性核 、高斯核 、sigmoid 核
D、 在大多数场景下,高斯核都能取得不错的效果 答案: B
374、下列关于回归 SVM 的描述错误的是(单选题)
A、 SVM 的思想既能解决分类问题又能解决回归问题
B、 回归 SVM 是要找到这样的一条曲线尽可能的让样本分布在曲线的近距离处 C、 回归 SVM 没有间隔违例
D、 回归 SVM 需要通过超参数来调节满足条件的线距宽度 答案: C
375、下列关于 SVM 的 API 描述错误的是(单选题)
A、 在众多 SVM 分类 API 中使用最广泛的是 SVC 、 NuSVC 和 LinearSVC B、 SVC 可以指定使用不同的核函数
C、 SVC 、 NuSVC 和 LinearSVC 中都有正则化参数 C
D、 正则化参数 C 越大,代表正则项惩罚越小,对误分类的惩罚越大,模型可 能过拟合
答案: C
376、下列关于 SVM 的描述正确的是(多选题)
A、 SVM 只能用于二分类场景
B、 SVM 在处理线性不可分问题时,使用高维空间映射特征后的效果显著 C、 在样本数据维度较高时也能达到很好的效果
D、 关于核函数的选择需要依据特定的场合去试验分析并最终确定 答案: BCD
377、EM 算法是( )学习算法 (单选题)
A、 有监督 B、 无监督 C、 半监督 D、 都不是
答案: B
378、EM 算法的 E 和 M 指( ) (单选题)
A、 Expectation-Maximum B、 Expect-Maximum
C、 Extra-Maximum D、 Extra-Max
答案: A
379、EM 算法可以应用于( ) (单选题)
A、 学习贝叶斯网络的概率 B、 EM-聚类 C、 训练 HMM D、 以上均可
答案: D
380、EM 算法的核心思想是( ) (单选题)
A、 通过不断地求取目标函数的下界的最优值,从而实现最优化的目标。 B、 列出优化目标函数,通过方法计算出最优值
C、 列出优化目标函数,通过数值优化方法计算出最优值 D、 列出优化目标函数,通过坐标下降方法计算出最优值 答案: A
381、在含有隐变量的模型中,给定观测数据x,设其对应的隐变量为 z,称 (x,z)为 (填空题)
答案: 完全数据;
382、在 P(x, Θ ) = ΣzP(x,z ; Θ ) 中, Θ为 ,P(x,z ; Θ ) 为 。 (填空题)
答案:参数;完全数据的联合概率分布;
383、隐马尔可夫模型是 ,
在 、 、 等领域有着广泛的应用。 (填空题)
答案: 经典的序列建模算法;语音识别;词性标注;机器翻译
384、隐马尔可夫模型的参数就是 。 (填空题)
答案: 带有隐变量的极大似然估计问题;
385、可以用 算法解出隐马尔可夫模型中的所有参数。 (填空题)
答案: Baum-Welch;
386、含有隐变量的模型往往用于对不完全数据进行建模。 (✓)
答案: 正确
387、朴素计算方法当中存在大量的冗余计算,因此可以使用动态规划来进行
优化。 (✓)
388、如果高斯混合模型的各个子模型均值之间距离更小,方差更大,则聚类 准确率会更高。 (×)
389、隐马尔可夫模式是经典的序列模型算法。 (✓)
390、隐变量序列预测就是给定隐马尔可夫模型的参数即观测序列,求观测序
列最有可能对应的状态序列。 (✓)
391、EM 算法是什么?主要用于什么?请列举经典 EM 算法。 (简答题)
答案:EM 算法是一种迭代优化算法,E 代表 Expectation,M 代表
Maximization。 主要用于含有隐变量模型的参数估计。含有隐变量的模型往往 用于对不完全数据进行建模。EM 算法是一种参数估计的思想,典型的 EM 算法 有高斯混合模型、隐马尔可夫模型和 K -均值聚类等。
392、隐马尔可夫模型在实际应用中对应着哪三个基本问题? (简答题)
答案:(1)计算观测序列的输出概率。(2)估计隐马尔可夫模型的参数
(3)隐变量序列预测。
393、下列关于 EM 的描述错误的是(单选题)
A、 它是期望最大化( Expectation Maximum) 的缩写 B、 它主要用于解决在数据缺失情况下的参数估计问题 C、 它的主要实现步骤分为 E-step 和 M-step
D、 最终通过一次估计而得的参数即为最终的模型参数 答案: D
394、请对下列关于 EM 的实现步骤的正确排 序 。
A)求出使得似然函数取得最大值时的参数
B)随机初始化模型参数 θ0
C) 求出所有样本联合分布的条件概率期望作为似然函数
D)判断此时的参数是否已收敛 ,否则继续重复 EM 计算求解参数(填空题)
答案: BCAD;
395、下列关于 EM 的实现原理描述正确的是(单选题)
A、 初始化的模型参数不会对 EM算法的效果有任何影响 B、 EM 模型最终估计出的参数一定会是模型最真实的参数
C、 使用期望的目的是为了将样本的所有可能的情况都考虑进去
D、 EM 算法的 E-step 和 M-step 可以调换顺序 答案: C
396、随机森林的 2 个随机是指( )。 (多选题)
A、 样本随机选择 B、 决策树的个数随机选择
C、 样本属性随机选择 D、 决策树的深度随机选择
答案: AC
397、下列哪个集成学习器的个体学习器存在强依赖关系( ) (单选题)
A、 Boosting B、 Bagging C、 Random Forest D、 随机森林
答案: A
398、下列哪个集成学习器的个体学习器不存在强依赖关系( ) (单选题)
A、 Boosting B、 AdaBoost C、 随机森林 D、 EM
答案: C
399、下列( )不是 Boosting 的特点 (单选题)
A、 串行训练的算法 B、 基分类器彼此关联
C、 串行算法不断减小分类器训练偏差 D、 组合算法可以减小分类输出方差
答案: D
400、下列( )不是 Bagging 的特点 (单选题)
A、 各基础分类器并行生成 B、 各基础分类器权重相同
C、 只需要较少的基础分类器 D、 基于 Bootstrap 采样生成训练集
答案: C
401、集成学习的主要思想是( ) (单选题)
A、 将多个数据集合集成在一起进行训练 B、 将多源数据进行融合学习
C、 通过聚类算法使数据集分为多个簇
D、 将多个机器学习模型组合起来解决问题 答案: D
402、型的集成学习的框架包括 和 (填空题)
答案: Bagging;Boosting;
403、方差越小,说明不同的采样分布 D 下,模型的泛化能力大致相当,侧面 反映了模型没有发生 ;偏差越小,说明模型对样本的预测 ,模型的拟合性 (填空题)
答案: 过拟合;越准;越好;;
404、 在数据挖掘、模式识别等领域有着广泛的运用。 (填空题)
答案: AdaBoost;
405、基模型为决策树的 算法称为提升树。 (填空题)
答案: Boosting;
406、低方差的优化结果比高方差的优化结果更集中。 (✓)
407、XGBoost 通过 来抑制模型的复杂度,以缓解过拟合。 (填空题)
答案: 正则化项;
408、模型的方差和偏差之和越大,模型性能的误差越小,泛化能力越强。 (×)
409、随机森林有易于实现,易于并行等优点。 (✓)
410、提升树有着可解释性强、伸缩不变性(无须对特征进行归一化)、对异
常样本不敏感等优点,被认为是最好的机器算法之一。 (✓)
411、在数理统计中,所谓残差 r 是指样本(x, y)模型 f(x)预测值与样本真实 值 y 之差。 (×)
412、偏差的概念与方差的表达式。 (简答题)
答案:偏差:偏差 bias(x)为期望值与真实值 y 之间的平方差
方差:var(x)=E d [ (f D (x) - E D [f D (x) ] ) 2 ]
413、简述 Bagging 以及随机森林的原理思路? (简答题)
答案:Bagging 的思路是从原始的样本集合采样,得到若干个大小相同的样本 集合,然后在每个样本集合上分别训练一个模型,最后用投票法进行预测
随机森林:在 Bagging采样得到的样本集合的基础上,随机从中挑选出K 个属 性再组成新的数据集,之后再训练决策树,最后训练 T 棵树进行集成
414、简述 Boosting 的原理思路,它与 AdaBoost 的关系? (简答题)
答案:Boosting集成的思路:首先再样本上训练一个简单的弱学习器,这样的 模型往往是欠拟合的。后面每次依据前一个弱学习器,对样本集合中的样本权 重或者概率分布做新的调整,着重考虑被弱学习器错误分类的样本,然后在调 整好的样本集合上训练一个新的弱分类器。不断重复这一过程,直到满足一定 的终止条件为止。然后将学习到的各个弱分类器按照性能的高低赋予不同的权 重集成起来得到最终的模型。
AdaBoost 是 Boosting 算法中的代表。
415、Bagging 算法与 Boosting 算法的区别? (简答题)
答案:(1)数据方面:Bagging 对数据进行采样训练;Boosting 根据前一轮学 习结果调整数据的重要性。
(2)投票方面:Bagging 所有学习器平权投票;Boosting 对学习器进行 加权投票。
(3)学习顺序:Bagging 的学习是并行的,每个学习器没有依赖关系; Boosting 学习是串行,学习有先后顺序。
(4)主要作用:Bagging 主要用于提高泛化性能(解决过拟合,也可以 说降低方差);Boosting主要用于提高训练精度 (解决欠拟合,也可以说降
低偏差)
416、随机森林算法中,为什么要随机抽样?为什要又放回的抽样? (简答题)
答案:(1)如果不进行随机抽样,每棵树的训练集都一样,那么最终训练出的 树分类结果也是完全一样的.
(2)如果不是有放回的抽样,那么每棵树的训练样本都是不同的,都是 没有交集的,这样每棵树都是“有偏的 ”,都是绝对“片面的 ”(当然这样说可 能不对),也就是说每棵树训练出来都是有很大的差异的;而随机森林最后分类 取决于多棵树(弱分类器)的投票表决。
417、什么是包外估计?包外数据的概率是多少?包外估计的用途? (简答题)
答案:(1)随机森林的 Bagging 过程中,没有被选择到的数据称之为 Out-of- bag(OOB)数据,当数据足够多时,对人一组数据(x n, y n) 是包外数据的概 率为:
(2)当基学习器是决策树时,可使用包外样本来辅助剪枝 ,或用于估 计决策树中各结点的后验概率以辅助对零训练样本结点的处理;当基学习器是 神经网络时,可使用包外样本来辅助早期停止以减小过拟合 。
418、通过聚集多个决策树模型来提高分类准确率的技术称为( )。 (单选题)
A、 合并 B、 聚集 C、 集成 D、 加权求和
答案: C
419、Bagging算法的原理是通过组合多个训练集的分类结果来提升分类效果。
(✓)
420、Bagging算法中每个样本被选中概率相同,所以噪声数据的影响下降,容易 受过拟合的影响。 (×)
421、下列对提升法的描述正确的是( )。 (多选题)
A、 每个单独训练样本都会被分配一个相同的初始权重
B、 增加分类正确样本的权重,降低分类错误样本的权重来提来分类器的准确率 C、 降低分类正确样本的权重,增加分类错误样本的权重来提来分类器的准确率 D、 如何组合每一轮产生的分类模型得出预测结果是提升法需要解决的问题
答案: ACD
422、下列关于随机森林的描述正确的是( )。 (多选题)
A、 与袋装法采用相同样本抽取方式
B、 每次从所有属性中随机抽取 t 个属性来训练分类器
C、 每次从所有样本中选取一定比例的样本来训练分类器
D、 可以使用不同的决策树的组合来构建分类模型 答案: ABCD
423、随机森林的 2 个随机指的是( )。 (多选题)
A、 随机选取样本 B、 随机选取分类器
C、 随机选取权重 D、 随机选取属性
答案: AD
424、下列关于 CART 算法的描述正确的是( )。 (多选题)
A、 CART 算法采用的是 2 循环分割方法
B、 CART 算法使用Gini 指标来评价分支属性的效果 C、 CART 算法是 C4.5 的改进算法
D、 分支属性有多个取值的时候,需要对属性进行组合 答案: ABD
425、关于集成学习的说法正确的有( )。 (多选题)
A、 团结力量大 B、 尺有所短寸有所长
C、 赢者通吃 D、 一个好汉三个帮
答案: ABD
426、关于集成学习算法的说法正确的是( )。 (单选题)
A、 一种并行的算法框架 B、 一种串行的算法框架
C、 一类全新的数据挖掘算法 D、 一类将已有算法进行整合的算法
答案: D
427、以下哪些措施有助于提高基础分类的多样性( )。 (多选题)
A、 采用不同的训练集 B、 采用不同类型的算法
C、 采用强的基础分类器 D、 采用不同的训练参数
答案: ABD
428、Bagging 的主要特点有( )。 (多选题)
A、 各基础分类器并行生成 B、 各基础分类器权重相同
C、 只需要较少的基础分类器 D、 基于 Bootstrap 采样生成训练集
答案: ABD
429、对 Boosting 模型的描述正确的是( )。 (多选题)
A、 采用串行训练模式
B、 基础分类器通常应采用强分类器
C、 通过改变训练集进行有针对性的学习
D、 基础分类器采用少数服从多数原则进行集成 答案: AC
430、对 AdaBoost 描述正确的是( )。 (多选题)
A、 可以集成出训练误差任意低的分类器
B、 基础分类器可以任意弱(准确率高于 50%)
C、 通过对样本进行加权达到改变训练集的效果
D、 被当前基础分类器分错的样本的权重将会减小 答案: AB
431、装袋法的原理是通过组合多个训练集的分类结果来提升分类效果( )。
(✓)
432、装袋法中每个样本被选中概率相同,所以噪声数据的影响下降,容易受过 拟合的影响( )。 (×)
433、集成学习的基本原理是什么?举例说明三种集成学习的应用。 (简答题)
答案: 基本原理:用多种学习方法的组合来获取比原来方法更优的结果,适用 于组合的算法是弱学习算法,即学习算法正确率低但集成之后的算法准确率和 效率都很高。
举例:
1. 装袋法:通过随机采样获取个体弱学习训练集,通过 T 次随机采样独立训练 出 T 个弱学习器,通过集合策略获得强学习器。
2. 随机森林:与装袋法类似获取训练集,但是随机森林所训练出的弱学习器都 是决策树,并且在装袋法的随机采样的基础上又添加了特征随机选择。
3. 提升法:通过算法集合将弱学习器利用加权的方式进行训练转化为强学习器
434、关于集成学习的说法正确的有( )。 (多选题)
A、 团结力量大 B、 尺有所短寸有所长
C、 赢者通吃 D、 一个好汉三个帮
答案: ABD
435、Bagging 的主要特点有( )。 (多选题)
A、 各基础分类器并行生成 B、 各基础分类器权重相同
C、 只需要较少的基础分类器 D、 基于 Bootstrap 采样生成训练集
答案: ABD
436、对 Boosting 模型的描述正确的是( )。 (多选题)
A、 采用串行训练模式
B、 基础分类器通常应采用强分类器
C、 通过改变训练集进行有针对性的学习
D、 基础分类器采用少数服从多数原则进行集成 答案: AC
437、对 AdaBoost 描述正确的是( )。 (多选题)
A、 可以集成出训练误差任意低的分类器
B、 基础分类器可以任意弱(准确率高于 50%)
C、 通过对样本进行加权达到改变训练集的效果
D、 被当前基础分类器分错的样本的权重将会减小 答案: AB
438、简述 GBDT 算法的过程以及应用。 (简答题)
答案: 梯度提升决策树算法是利用梯度下降的思想,使用损失函数的负梯度在 当前模型的值,作为提升树中残差的近似值,以此来拟合回归决策树。梯度提 升决策树的算法过程如下:
初始化决策树,估计一个使损失函数最小化的常数构建一个只有根节点的树。 不断提升迭代:计算当前模型中损失函数的负梯度值,作为残差的估计值;估 计回归树中叶子节点的区域,拟合残差的近似值;利用线性搜索估计叶子节点 区域的值,使损失函数极小化;更新决策树。
经过若干轮的提升法迭代过程之后,输出最终的模型。
439、以随机森林为例,讨论为什么集成学习能否提高分类的性能。 (简答题)
答案:传统的分类方法是在一个由各种可能的函数构成的空间中寻找一个最接 近实际分类函数的分类器。
可以通过聚集多个分类器的预测结果提高分类器的分类准确率,这一方法即为 集成学习。
该方法由训练数据构建一组基分类器,然后通过对每个基分类器的预测进行投 票来进行分类。
随机森林算法目标是通过将多个弱学习机(如单棵决策树)组合得到一个强学 习机。
随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的 输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这 个样本应该属于哪一类,然后看看哪一类被选择最多,就预测这个样本为那一 类。
这样就集成了多个分类器的分类结果,达到了更好的分类性能。
440、集成学习是为了解决机器学习中
的 和 问题(填空题)
答案: 过拟合; 欠拟合;
441、集成学习在解决机器学习中的欠拟合使用 方 法,解决过拟合问题使用 方法。 (填空题)
答案: Bagging; Boosting;
442、请对下列随机森林的构建方法的正确排序 。
A)重复采样,构建出多颗决策树
B)随机选取部分样本,并随机选取部分特征交给其中一颗决策树训练
C)如果是分类场景则采用平权投票的方式决定最终随机森林的预测结果,如
果是回归场景则采用简单平均法获取最终结果
D)将相同的测试数据交给所有构建出来的决策树进行及结果预测(填空题)
答案: BADC;
443、下列关于多分类模型评估的说法正确的是(多选题)
A、 使用 sklearn.metrics.logloss 可以评估多分类模型
B、 多分类模型评估时可以直接使用原始 label 和预测的结果
C、 评估模型时必须要将原始的 label 和预测结果转换为OneHot 编码 D、 预测结果可以使用概率值的形式进行表达,也能用于模型评估
答案: AD
444、下列关于随机森林模型调优的说法正确的是(多选题)
A、 如果硬件设施满足条件,在这里我们可以使用网格搜索对参数进行调优 B、 由于随机森林模型参数众多,可以先对影响较大的参数进行调优
C、 调优过程可以将每种模型的损失和准确率利用折线图进行直观展示 D、 袋外数据能帮助我们评估模型
答案: ABCD
445、下列关于 Boosting 的说法正确的是(多选题)
A、 Boosting 是累积提升基学习器分类准确率的方法的统称 B、 AdaBoost 中每个基分类器的训练顺序没有明确的划分
B、 AdaBoost 每次基学习器分类完毕后只对分错的样本的权重进行调整 D、 AdaBoost 使用了 Boosting 的思想
答案: AD
446、下列关于 GBDT 的说法正确的是(多选题)
A、 它使用的基学习器是分类决策树 B、 它使用了 Boosting 的思想
C、 它使用负梯度去拟合每次基学习器学习后的残差
D、 它引入了学习率是为了防止过拟合 答案: ABCD
447、下列关于 XGBoost 的描述错误的是(单选题)
A、 它是极限梯度提升树( Extreme Gradient Boosting) 的缩写 B、 它在数据挖掘方面拥有更好的性能
C、 只用经验风险最小化的思想无法获得最好的模型效果 D、 xgboost 算法使用的是经验风险最小化的模型优化思想 答案: D
448、下列关于 XGBoost 损失函数的正则化项描述错误的是(单选题)
A、 它使用的是 CART 回归树作为基学习器 B、 它的正则化项只包含一棵树的结果
C、 它的正则化项由树的叶子节点的个数以及 L2 正则化项组成 D、 模型可以通过超参数来调整正则化项对模型的惩罚力度
答案: B
449、下列关于 XGBoost 损失函数的描述错误的是(单选题)
A、 它的第 T 棵树的损失与第 T-1 棵树无关
B、 在求第 T 棵树的结构时可将前 T-1 棵树的结构作为常数
C、 它使用了二阶泰勒展开式去近似目标函数
D、 最终得出的损失函数值越小代表模型的效果越好 答案: A
450、下列关于 XGBoost 回归树的描述错误的是(单选题)
A、 它可以使用打分函数确定某个节点是否能够继续分裂 B、 它可以使用打分函数确定某个特征的最佳分割点
C、 最大树深度和最小叶子节点样本数可以用来调节树结构
D、 超参数 gamma 的大小对树结构没有影响 答案: D
451、下列关于 XGBoost 与 GBDT 的描述错误的是(单选题)
A、 它们都属于集成学习中的提升算法
B、 它们在构建树的过程中都考虑到了结构风险
C、 在相同的条件下 XGBoost 相比于 GBDT 准确性更高
D、 在确定最佳分裂点时 XGBoost 能利用多线程提升效率 答案: B
452、下列关于 XGBoost 的 API 的描述正确的是(多选题)
A、 重要分为三类参数:通用参数 、 Booster 参数 、学习目标参数 B、 通用参数是所有类型 API 都会用到的参数
C、 Booster 参数能决定构建的模型的泛化能力
D、 学习目标参数能够确定模型解决的是什么问题和衡量损失的方法 答案: ABCD
453、下列关于 lightGBM 实现原理的描述错误的是(单选题)
A、 它通过直方图的方式来选取特征的最佳分裂点 B、 它使用的 leaf-wise 叶子生长策略没有缺陷
C、 它支持各种形式的类别输入,不限于 0/1 展开
D、 他支持特征和样本的高效并行 答案: B
454、下列关于 lightGBM 的 API 的描述正确的是(多选题)
A、 使用时安装了第三方库
B、 它的主要参数分为 control parameter 、core parameter 、 IO parameter C、 部分参数与决策树类似
D、 为了避免模型出现过拟合或者欠拟合,部分参数可以做适当的调整 答案: ABCD
455、XGBoost 与 GDBT 的区别(简答题)
答案:
区别一:XGBoost 生成 CART 树考虑了树的复杂度,GDBT 未考虑,GDBT 在树的 剪枝步骤中考虑了树的复杂度。
区别二:XGBoost 是拟合上一轮损失函数的二阶导展开,GDBT 是拟合上一轮损 失函数的一阶导展开,因此,XGBoost 的准确性更高,且满足相同的训练效
果,需要的迭代次数更少。
区别三:XGBoost 与 GDBT 都是逐次迭代来提高模型性能,但是 XGBoost 在选取 最佳切分点时可以开启多线程进行,大大提高了运行速度。