很过数据是没有线性关系的==》非线性 =》多项式模拟非线性曲线
添加的特征是原来特征的线性组合==》解决非线性问题=》数据集升维 (PCA降维) 有时升维有时降维
=》x^2 x 虽然是同一特征 但我们把它x^2当做是另一个特征
Pipeline 创建多项式回归: 通过增加特征 依然使用使用线性回归
多项式回归拟合非线性:
一个二次曲线 ==》过拟合 100次太复杂了 训练集上好 在验证集 和 测试集不好 欠拟合 1次不够
学习狗的图片:
有眼睛的是狗:只学习一部分特征 欠拟合
四爪 眼睛 ... 斑点 :所有符合的基础上又加上了 斑点 斑点只是一部分狗才有 可过拟合学出了斑点特征 太细节的特征
泛化能力:由此及彼能力 根据训练得到的曲线 面对新的数据的能力
最终的模型最终能力不是拟合训练集 而是更好的拟合 测试集 新数据 =》