【第一章】机器学习预备知识

1、了解机器学习的发展简史。

 2、复述出训练集、验证集和测试集的作用。

训练集(Training set)

作用是用来拟合模型,通过设置分类器的参数,训练分类模型。后续结合验证集作用时,会选出同一参数的不同取值,拟合出多个分类器。

验证集(Cross Validation set)

作用是当通过训练集训练出多个模型后,为了能找出效果最佳的模型,使用各个模型对验证集数据进行预测,并记录模型准确率。选出效果最佳的模型所对应的参数,即用来调整模型参数。如svm中的参数c和核函数等。

测试集(Test set)

通过训练集和验证集得出最优模型后,使用测试集进行模型预测。用来衡量该最优模型的性能和分类能力。即可以把测试集当做从来不存在的数据集,当已经确定模型参数后,使用测试集进行模型性能评价。

3、阐述清楚回归任务和分类任务的差别。

回归任务,是对连续值进行预测(比如多少);

分类任务,是对离散值进行预测(比如是不是属不属于,或者属于哪一类

4、熟练的阐述监督学习、非监督学习、半监督学习以及强化学习的相关概念。

监督学习(supervised learning) 是指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。

无监督学习 (unsupervised learning) 是指从无标注数据中学习预测模型的机器学习问题。无标注数据是自然得到的数据,预测模型表示数据的类别、转换或概率。无监督学习的本质是学习数据中的统计规律或潜在结构。

半监督学习其不需要额外的“专家知识”,没有额外信息,仅利用未标记样本来提高泛化性能

强化学习C reinforcement learning) 是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。假设智能系统与环境的互动基于马尔可夫决策过程(Markov decision process) ,智能系统能观测到的是与环境互动得到的数据序列。强化学习的本质是学习最优的序贯决策。

5、知道弱监督学习的三种类型,及每种类型的大致的标签质量。

弱监督通常分为三种类型:不完全监督、不确切监督、不准确监督

不完全监督,指的是训练数据只有部分是带有标签的,同时大量数据是没有被标注过的。这是最常见的由于标注成本过高而导致无法获得完全的强监督信号的情况

不确切监督,即训练样本只有粗粒度的标签。例如,针对一幅图片,只拥有对整张图片的类别标注,而对于图片中的各个实体(instance)则没有标注的监督信息

不准确监督,即给定的标签并不总是真值。出现这种情况的原因有很多,例如:标注人员自身水平有限、标注过程粗心、标注难度较大。

6、复述出损失函数的定义以及意义,以及常见的损失函数:0/1 损失平方损失函数、对数损失函数和绝对损失函数的表达式。

 

损失函数的作用:衡量模型模型预测的好坏用来表现预测与实际数据的差距程度。

损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。

 7、掌握假设空间的基本概念。

机器学习中可能的函数构成的空间称为“假设空间”

模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)。假设空间的确定意味着学习的范围的确定。

8、能够对过拟合、欠拟合现象进行分析并阐述其对应的解决方案。 

过拟合(overfitting):模型把训练集学得“太好”的时候,即把一些训练样本的自身特点当做了普遍特征;学习能力过强,以至于把训练样本所包含的不太一般的特性都学到了。

欠拟合(underfitting):模型学习能力不足,即训练集的基本特征都没有学习出来。学习能太差,训练样本的一般性质尚未学好。

 

9、熟练复述出机器学习的基本流程,并详细阐述每一步骤要进行的主要工作。

 10、列出梯度下降法的公式, 并根据公式讲解影响梯度下降法的三要素。

 

 11、熟练陈述学习率对梯度下降法的影响。

学习率太小的话,梯度下降过程会很缓慢。

学习率太大的话,梯度下降步子太大,可能永远无法到达最低点,无法收敛甚至偏离收敛。

12、能够根据具体的 Y_Pred  Y_true 绘制出混淆矩阵列出TPTN、FN,FP 的英文全称,并对以上概念进行解释说明。

 

TP:True Positive判定为真的(positive),且判定对了(true)

TN:True Negative判定为假的(negative),且判定对了

FP:False Positive判定为真的(positive),但判定错了

FN:False Negative判定为假的(negative),且判定错了

13、根据混淆矩阵计算 Accuracy、Precision、Recall 以及 F1。

 14、解释 P-R 曲线中的横纵坐标, 复述根据 P-R 图判断模型优劣的方法。

 15、能够解释 AUC 值的具体涵义, 可以根据 ROC 曲线和 AUC 值判断模型的好坏,以及AUC值取值对应的模型优劣。

 16、熟记常见回归任务的评价指标,如 MSE、MAE、R-square 的数学公式。

 17、能够复述出交叉验证的作用,画出示意图并讲解交叉验证过程

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hellenionia

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值