数据分析笔试记录--广联达

最新推荐文章于 2021-09-03 14:27:43 发布

xiaoxiaolanya

最新推荐文章于 2021-09-03 14:27:43 发布

阅读量2.7k

点赞数 3

文章标签：数据分析

本文链接：https://blog.csdn.net/xiaoxiaolanya/article/details/100113461

版权

广联达笔试

题目类型：15单选 60 2问答 20 2编程 20

题目类型：15单选 60 2问答 20 2编程 20

单选

1.“点击率问题”是这样一个预测问题，99%的人是不会点击的，而1%的人是会点击的，所以这是一个非常不平衡的数据集，假设，现在我们已经建了一个模型来分类，而且有了99%的准确率，我们可以下的结论是：
A:无法下结论
B.模型的准确率很高了，我们不需要再做什么了
C.模型预测的准确率不高，我们需要做点什么改进模型
D.其他选项都不对
答案：A
分析：
TP:真正类 TN：真负类 FP:假正类(预测为正实际为负) FN:假负类(预测为负实际为正)
准确率(Accuracy): (TP+TN)/(TP+FP+TN+FN)
查准率(Precision)：TP/(TP+FP)
召回率(Recall): TP/(TP+FN)
准确率为99%可以为TP=0,TN=99,此时一个正例都没预测出来

2.截取logfile文件中含有suc的行，并且只输出最后一列，下列操作正确的是：
C.grep ‘suc’ logfile | awk ‘{print $NF}’

3.在K折交叉验证中，以下对K的哪种说法是对的：
A.在选择K时，要最小化数据集之间的方差
B.选取高的K值不一定总是好的，因为较高的K值会减慢你评估结果的速度
C.选择更大的K，就会有更小的偏差（因为训练集更加接近总数据集）
D.其他选项均正确
答案：B
解析：
偏差：期望输出与真实标记的差别，刻画了学习算法本身的拟合能力；
方差：度量了不同大小的训练集的变动导致学习性能的变化，即刻画了数据扰动带来的影响。
噪声：样本真实标记与实际标记的差别，表达了在当前学习任务中，任何学习算法所能达到的期望泛化误差的下届，即刻画了学习问题本身的难度
偏差-方差：测试集小时，评估结果的方差较大，训练集小时，评估结果的偏差较大。
训练程度越深，偏差越小，方差越大，泛化误差先变小后变大
在这里插入图片描述
4.通常来讲，对模型预测效果的排序正确的是：
A.Bagging>Boosting>Random Forest>Single Tree
B.Boosting>Random Forest>Bagging>Single Tree
C.Boosting>Random Forest>Single Tree>Bagging
D.Boosting>Bagging>Random Forest>Single Tree
答案：B
解析：
Boosting在每一轮训练中会重点考虑上一轮被误分的样本
RF在Bagging的基础上添加了属性扰动；

5.以下哪种算法是并行实现的：
A.随机森林和XGBoost
B.XGBoost
C.梯度提升树
D.随机森林
答案：D
解析：
XGBoost本质上还是一个串行模型。
XGBoost不是在Tree粒度上并行的，而是在特征粒度上。
决策树最耗时的一个步骤就是特征排序（因为要做最佳特征分割）。XGBoost训练开始前预先将特征进行排序放在一个block中，后面在迭代过程中直接调用这个块可以大大减小计算量。并且在节点分裂过程中，计算特征的增益时，就可以直接调用这个块开多线程进行。

6.抽取30个手机用户，计算出他们通话时间的方差，要用样本方差推断总体方差，假定前提是所有用户的通话时间应服从：
A.F分布
B.卡方分布
C.t分布
D.正态分布
答案： D
解析
单正态总体方差的检验用卡方检验；
两正态总体方差比的检验用F检验；
单正态总体，方差已知，总体均值用u检验，方差未知用t检验；
两正态总体，方差未知但相等，总体均值用t检验；方差已知，总体均值用u检验；
大样本情况下，非正态总体也可以用u检验；样本量不是很大的情况下可以用近似t检验；
成对数据检验用t检验；

7.如果p值小于显著性水平α，那么：
A.没有显著性统计学差异
B.有显著性差异
C.无效数据
D.不能拒绝原假设
答案B
解析
p值：指的是在假设检验中，利用样本观察值能作出拒绝原假设的最小显著性水平；
显著性水平α：指的是犯第一类错误的概率为α（第一类错误：原假设为真却被拒绝了）
p<=α：拒绝原假设，有显著性差异
p>α：接受原假设，无显著性差异

8.对于如下图的双峰分布，以下哪种对集中趋势的度量最合适：
A.平均数
B.中位数
C.众数
D.
答案：中位数
解析
当有两个异常值的时候，选用中位数做集中趋势的度量

9.enrrolled表有两个字段，sid代表学生ID,cid代表课程ID,以下哪个查询能找到参加了多门课程的学生：
A.select distinct e1.sid from enrrolled as e1,enrrolled as e2 where e1.sid!=e2.sid and e1.cid !=e2.cid
B.select distinct e1.sid from enrrolled as e1,enrrolled as e2 where e1.sid=e2.sid and e1.cid != e2.cid
C.select dintinct e1.sid from enrrolled as e1,enrrolled as e 2where e1.sid!=e2.sid and e1.cid =e2.cid
D.select dintinct e1.sid from enrrolled as e1,enrrolled as e 2where e1.sid=e2.sid and e1.cid =e2.cid
答案 B

10.有样本均值为 $\bar{x}$ ，样本量为n，样本中位数m，总体均值估计的最佳方式是：
A. $m/\sqrt{(n-1)}$
B.m
C. $\bar{x}/\sqrt{(n-1)}$
D. $\bar{x}$
答案 D

11.假设95%的置信区间落在（20%，30%），他们的边际误差是多少：
A.25%
B.10%
C.95%
D.5%
答案 D
解析
置信区间为[a,b],边际误差=(b-a)/2
边际误差也称绝对误差。

12.当我们构造线性模型时，我们注意变量间的相关性，在相关矩阵中搜索相关系数时，如果我们发现三对变量的相关系数是(Var1和Var2,Var2和Var3,Var3和Var1)是-0.98，0.45，1.23，我们可以得出什么结论()
1.Var1和Var2是非常相关的；
2.因为Var1和Var2是非常相关的，我们可以去除其中一个
3.Var3和Var1的1.23相关系数是不可能的；
A.1 AND 2
B.1
C.1 AND 3
D.1,2 AND 3
答案 D

13.命题A：随机变量X和Y独立，命题B：随机变量X和Y不相关。A是B的——条件：
A.不充分不必要
B.必要不充分
C.充分不必要
D.充要
答案 C
解析
充分不必要条件：有A一定有B，有B不一定有A，则A是B的充分不必要条件
必要不充分：B是A的必要不充分条件

14.数据分布如下图所示，以下哪种对集中趋势的度量最合适：
在这里插入图片描述
A.其他三种都可
B.众数
C.中位数
D.平均数
答案 C
解析

问答

1.什么是过拟合？如何避免过拟合
答案在训练集上表现很好，在验证集和测试集上表现很差
在这里插入图片描述
产生过拟合的原因：
1.样本问题：(1)样本里的噪音数据干扰过大，大到导致模型过分的记住了噪声特征，反而忽略了真实的输入输出间的关系；
（2）样本抽取错误，包括（但不限于）样本量太少、抽样方法错误、抽样时没有足够正确的考虑业务场景或业务特点等导致抽样的数据不能有效的代表业务逻辑或业务场景；
（3）建模时使用了样本中太多无关的输入变量
2.训练过度
解决办法：
1.early stoping
一般做法为，在训练过程中，记录到目前为止最好的验证准确性，当连续n次没有达到最佳的精度时停止；
2.数据集扩增
a.从数据源头采集更多的数据
b.复制原有数据并加上随机噪声
c.重采样
d.根据当前数据集估计的数据分布，用该分布产生更多的数据
3.正则化
在目标函数或代价函数优化时，在目标函数或代价函数后面添加正则项，一般为L1、L2正则。
在这里插入图片描述
上图的曲线是代价函数的等值线，黑色方框是L1正则项的函数，两者的交点更容易出现在坐标轴上。也就是说L1更容易得到稀疏解。

由上图可看出L2函数图像与损失函数的等值线更容易在象限内相交，L2正则起到了使得各特征系数变小加剧的效果，更小的系数意味着更低的复杂度。
总结：正则项降低了模型的复杂度，从而避免了模型过分拟合训练数据。
4.dropout
神经网络中的一种避免过拟合的方法，通过随机修改ANN中隐藏层的神经元个数来防止ANN过拟合（即让部分神经元失活，这样就阻断了部分神经元之间的协同作用，从而强制要求一个神经元和随机挑选出来的神经元共同进行工作，减少了部分神经元间的联合适应性）

2.什么是有监督学习和无监督学习?Kmeans属于哪一类，并简述其原理
解析
有监督学习：训练样本有标记信息（例如在分类学习中，已知训练样本的类别）
无监督学习：训练样本无标记信息（目标是通过对无标记的训练样本的学习来揭示数据的内在性质和规律，为进一步的数据分析提供基础）
Kmeans：属于无监督学习，是一种聚类学习方法；
kmeans聚类
一种原型聚类算法，k均值算法针对聚类所得的簇划分 $C={C_1,C_2,...,C_k}$ 最小化平方误差：
$E=\sum_{i=1}^k\sum_{x\in C_i} \begin{Vmatrix} x-u_i \end{Vmatrix}^2$

最低0.47元/天解锁文章

xiaoxiaolanya

关注

3
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
数据分析笔试记录--广联达

广联达笔试题目类型：15单选 60 2问答 20 2编程 20单选问答编程相关问题数据不平衡处理方法K折交叉验证集成学习题目类型：15单选 60 2问答 20 2编程 20单选1.“点击率问题”是这样一个预测问题，99%的人是不会点击的，而1%的人是会点击的，所以这是一个非常不平衡的数据集，假设，现在我们已经建了一个模型来分类，而且有了99%的准确率，我们可以下的结论是：A:无法下...
复制链接

扫一扫