回归和分类是对数据集建模的两种方法,具体使用哪种取决于数据类型属于数值数据还是分类数据。
1、回归的定义(Regression)
研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,又称多重回归分析。通常前者是因变量,后者是自变量。
线性回归:y=mx+b,其中m是斜率(Slope),b是截距(intercept)。
备注:这个等式的阶数为1阶,在高维度空间中,线性回归的等式的阶数为n阶,等式不再是一条直线,而是一个平面。
2、函数逼近
使用函数形式来逼近一堆数据点。强化学习中会有所应用。
3、线性回归中的多项式
以上公式中的参数也叫做权重,用来评判X的值在模型中所占的比例。
例如:y = 9 + 1/3x1 + 2/3x2
其中x1的参数为1/3,在整个模型中所占的比较小,相反x2的比重就比较大。
4、减少误差
出现误差的原因是在实际生活中,我们的数据往往不能很好的拟合线性模型,预测的值与实际的值有出入。
5、交叉验证
目的是得到一个可靠稳定的模型,机器学习的目的是为了得到泛化能力。
通常是把数据集分成两部分,训练集和测试集,有时候也会把训练集拆成两部分,训练集和验证集。
训练集:为了构建模型;测试集:为了验证进过训练后的模型的准确率;验证集:辅助构建模型,优化模型。
6、小结
A、回归这个概念的历史来源
B、模型选择和过/欠拟合
C、交叉验证
D、线性回归和多项式回归
E、平方误差下的最佳常数:平均数
F、回归的表示法