机器学习之专业术语

训练集用来估计模型

验证集用来确定网络结构或者控制模型复杂程度的参数,

测试集则检验最终选择最优的模型的性能如何。

一个典型的划分是训练集占总样本的50%,而其它各占25%,三部分都是从样本中随机抽取。

但是,当样本总量少的时候,上面的划分就不合适了。常用的是留少部分做测试集。然后对其余N个样本采用K折交叉验证法。就是将样本打乱,然后均匀分成K份,轮流选择其中K-1份训练,剩余的一份做验证,计算预测误差平方和,最后把K次的预测误差平方和再做平均作为选择最优模型结构的依据。特别的K取N,就是留一法(leave one out)。

Q1:训练集,验证集,测试集的准确率都很高,但是用于实际中进行预测时,效果不理想,分析可能存在的原因

数据集过小,集合的选择没有反映出普遍的特征。

训练集,测试集和验证集的内容一致性高,在训练集,测试集和验证集上都发生了过拟合。

特征工程指的是把原始数据转变为模型的训练数据的过程,目的就是获取更好的训练数据特征,使得机器学习模型逼近这个上限,一般认为包括特征构建、特征提取、特征选择三个部分。

其中特征提取这一步有LDA线性判别分析(降维),PCA(主成分分析),特征选择之后可用LDA进行降维。

Kernel通过将映射的内积进行数学变换,变成直接用x,z进行计算的函数关系,从而避免计算复杂的映射,来达到简化高维内积运算的目的。

奇异值分解(SVD)不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域,SVD可用于PCA(主成分分析,除LDA外的另一种降维方法)。

过拟合:

Q:用什么方法可以防止过拟合问题?

(1)可以使用正则化来防止过拟合,在bias和variance之间得以balance。

bias:指训练模型中,测试集的预测结果和真实值之间的误差,通常用损失函数来表示。

variance:模型训练完成后,实际使用中预测结果和实际值之间的偏差,通常我们用平方误差来表示。


红框里的即为正则项

(2)减少feature个数

(3)数据的扩充

(4)提前终止



阅读更多
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页