3.1 基本形式
线性模型:通过属性的线性组合来进行预测的函数。
具有很好的可解释性。
3.2 线性回归
●将属性值化为连续值:
有序属性:直接数值化就可以,比如高和矮,化为1.0和0.0
无序属性:可以用向量表示。
●最小二乘法:对应欧几里得距离也成欧氏距离。基于均方误差最小化来进行模型求解。找到一条直线,使得所有样本到直线上的欧式距离最小。
●线性回归模型的最小二乘 “参数估计”:求解参数w和b,使得均方误差最小化。
3.3 对数几率回归
它是一个sigmoid函数,将z值转化为一个接近0或者1的数。这样就可以实现二分类问题。
3.4 线性判别分析LDA(Fisher判别分析)
将训练集的数据投影到一条直线上,寻找合适的角度,使得该直线上的同类点集中,异类点相远离。
●使得同类样例离得尽可能接近,可以计算各个同类点的协方差,使得协方差取得最小值。
●使得异类样例的投影点尽可能的远,就去计算异类样例的协方差,令其取最大值。
此处涉及到散度矩阵、广义瑞丽商、拉格朗日乘子法,奇异值分解,不再细究。