机器学习面试题 -模型的评价与验证

1.什么是机器学习的过拟合?

  所谓过拟合,就是指模型在训练集上的效果很好,在测试集上的预测效果很差。

2.如何避免过拟合问题?

1)重采样bootstrap;
2)L1,L2正则化;
3)决策树的剪枝操作;
4) 交叉验证。

3.什么是机器学习的欠拟合?

  所谓欠拟合就是模型复杂度低或者数据量太小,对数据的拟合程度不高,因此模型在训练集上的效果不好。

4.如何避免欠拟合问题?

1)增加样本的数量;
2)增加样本特征的个数;
3)可以进行特征维度的扩展。

5.什么是交叉验证?交叉验证的作用是什么?

  交叉验证,就是将原始数据集(dataset)划分为两部分,一部分为训练集用来训练模型,另外一部分用来测试模型效果。

作用:
   1)交叉验证是用来评估模型在新的数据集上的预测效果,也可以在一定程度上减少模型的过拟合。
   2)还可以从有限的数据中获取尽可能多的有效信息。

   交叉验证主要有以下方法:留出法,k折交叉验证,留一法和BootStrap方法。其中,留出法简单地将原始数据集划分为训练集、验证集和测试集三个部分。

6.如何避免数据不平衡?

   1)重采样(bootstrap)–>上采样和下采样
   2) 数据合成–>利用已有样本生成更多样本
   3) 加权
   4) 看成:分类或者异常检测的问题

 应用场景:
   1)正负样本都非常之少–>数据合成的方式
   2)负样本足够多,正样本非常之少且比例极其悬殊–>分类方法
   3)正负样本都足够多且比例不是特别悬殊–>采样或加权的方法

7.在数据处理过程中,对于缺少特征的样本如何进行处理?

 根据样本缺失的实际情况,我们一般应用:
  1)均值,中值,最大最小值等来填充数据;
  2)根据经验值补全数据;
  3)通过相关计算得到缺失值;
  4)样本数量足够,则可以直接删除有缺失值的样本。

8.连续性数据转换为离散数据有什么优点?

 1)离散特征的增加和减少都很容易,易于模型的快速迭代;
 2)离散化后的特征对异常数据具有很强的鲁棒性;
 3)离散化后可以进行特征交叉,相当于引入非线性,提升模型的表达能力;
 4)降低模型过拟合的风险。

9.准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F值(F-Measure)和ROC曲线的理解?

1)下表:1代表正类,0代表负类。

预测
10合计
实际1True postive(真下类,TP)False Negative(假负类,FN)Actual Postive
0Flase Postive(假正负,FP)True Negative(真负类,TN)Actual Negative
合计Predicted PostivePredicted NegativeTP+FN+FP+TN

准确率(正确率)=所有预测正确的样本/总样本=(TP+TN)/(TP+FN+FP+TN)
精确率=将正类预测为正类/所有预测为正类=TP/(TP+FP)
召回率=将正类预测为正类/所有真正的正类=TP/(FP+FN)
F值=精确率召回率2/(精确率+召回率)
注:F值即为精确率和召回率的调和平均值。

  ROC曲线:接收者操作特征(Receiver operating characteristic),ROC曲线上每个点反映着对同一信号刺激的感受性。
  纵轴:真正类率(True Postive rate,TPR),也叫真阳性率.TPR=TP / (TP + FN),代表分类器预测为正类中实际为正实例占所有正实例的比例;
  横纵:假正类率(False Positive),也叫伪阳性率。FRP=FP/(FP+TN),代表分类器预测为正类中实际为负实例占所有负实例的比例。
  理想目标:TPR=1,FPR=0,即图中(0,1)点,此时ROC曲线越靠拢(0,1)点越偏离45度对角线越好。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值