损失函数
最小二乘法
梯度下降法
sklearn
封装好但有些过程看不到,参数在内部
数据量大用SGD梯度下降
均方误差
mean_squared_error
过拟合和欠拟合
1.欠拟合
在训练集和验证集表现都不好
模型过于简单,增加数据特征
2.过拟合
在训练集表现好但验证集表现不好
原因:特征过多;存在嘈杂特征,模型过于复杂
解决:进行特征选择;交叉验证;正则化–
减少高次项特征的影响(权重)
线性回归容易出现过拟合
=》L2正则化(有正则化的线性回归)
Ridge岭回归
模型的保存和加载
在这里插入代码片
逻辑回归logisticRegression
-解决二分类问题-
从线性回归到分类
损失函数不一样,只能用梯度下降求解
sigmoid函数将输入转换为[0,1]
均方差
对数似然函数:存在多个局部最小值
解决:多次随机初始化
判别模型
生成模型(先验概率):朴素贝叶斯
k-means聚类
sklearn-cluster-kMeans
sklearn-metrics-sihouette-score
轮廓系数:外部距离最大化,内部距离最小化
随机森林
多个同样分类器,多个决策树
可以处理大数据集,不需要降维可以处理高维,不会过拟合