机器学习实战:基本问题及回答

1、怎么定义机器学习
机器学习是一门能够让系统从数据中学习的计算机科学。

2、机器学习在哪些问题上表现突出,你能提出四种类型吗?
机器学习非常利于:不存在已知算法解决方案的复杂问题,需要大量手动调整或是规则列表超长的问题,创建可以适应环境波动的系统,以及帮助人类学习(比如数据挖掘)。

3、什么是被标记的训练数据集?
被标记的训练集是指包含每个实例所期望的解决方案的训练集。

4、最常见的两种监督式学习任务是什么?
最常见的两个监督式任务是回归和分类。

5、你能举出四种常见的无监督学习任务吗?
常见的无监督式任务包括聚类、可视化、降维和关联规则学习。

6、要让一个机器人在各种未知的地形中行走,你会使用什么类型的机器学习算法?
如果想让机器人学会如何在各种未知地形上行走,强化学习可能会表现最好。

7、要将顾客分成多个组,你会使用什么类型的算法?
如果你不知道如何定义分组,那么可以使用聚类算法(无监督学习)将相似的顾客分为一组。但是,如果你知道想要的是什么样的群组,那么可以将每个组的多个示例反馈给分类算法(监督学习),它就可以将所有的顾客归类到这些组中。

8、你会将垃圾邮件检测的问题列为监督式学习还是无监督式学习?
监督式学习

9、什么是在线学习系统?
在线学习系统可以进行增量学习,与批量学习系统正好相反

10、什么是核外学习?
核外算法可以处理计算机主内存无法应对的大量数据。它将数据分割成小批量,然后使用在线学习技术从这些小批量中学习。

11、什么类型的学习算法依赖相似度来做出预测?
基于实例的学习系统通过死记硬背来学习训练数据,当给定一个新实例时,它会使用相似度度量来找到与之最相似的实例,并用它们进行预测。

12、模型参数与学习算法的超参数之间有什么区别?
模型有一个或多个参数,这些参数决定了模型对新的给定实例会做出怎样的预测(比如:线性预测的实例)。学习算法试图找到这些参数的最佳值,使得该模型能够很好地泛化至新实例。超参数是学习算法本身的参数,不是模型的参数(比如,要应用的正则化数量)。

13、基于模型的学习算法搜索的是什么?它们最常使用的策略是什么?它们最常使用的策略是什么?它们如何做出预测?
基于模型的学习算法搜索使模型泛化最佳的模型参数值。通常通过使成本函数最小化来训练这样的系统,成本函数衡量的是系统对训练数据的预测有多坏,如果模型有正则化,则再加上一个模型复杂度的惩罚。学习算法最好找到的参数值就是最终得到的预测函数,只需要将实例特征提供给这个预测函数即可进行预测。

14、你能提出机器学习中的四个主要挑战吗?
数据缺乏,数据质量差,数据不具代表性,特征不具信息量、模型过于简单对训练数据拟合不足,以及模型过于复杂对训练数据过度拟合。

15、如果你的模型在训练数据上表现很好,但是应用到新的实例上的泛化结果却很糟糕,是怎么回事?能提出三种可能的解决方案吗?
该模型可能过度拟合训练数据(或者在训练数据上运气太好)。可能的解决方案是:获取更多数据,简化模型(选择更简单的算法、减少使用的参数或特征数量、对模型正则化),或者是减少训练数据中的噪声。

16、什么是测试集,为什么要使用测试集?
在模型启动至生产环境之前,使用测试集来估算模型在新实例上的泛化误差。

17、验证集的目的是什么?
验证集用来比较不同模型,它可以用来选择最佳模型和调整超参数。

18、如果使用测试集调整超参数会出现什么问题?
会有过度拟合测试集的风险,最后测量的泛化误差会过于乐观。

19、什么是交叉验证?它为什么比验证集更好?
通过交叉验证技术,可以不需要单独的验证集实现模型比较(用于模型选择和调整超参数)。这节省了宝贵的训练数据。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

evil心安

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值