- 博客(2)
- 收藏
- 关注
原创 机器学习笔记3:使用sklearn进行线性回归的基本流程
1、数据读取 df = pd.read_csv(“xxx.csv”) 2、数据探索 数据基本信息探索 单变量分布分析 数值型特征 直方图 箱体图 boxplot& 提琴形图Violinplot 离散型特征(类别型特征) 频率表 value_counts() 条形图 countplot 两两特征之间的相关性 相关矩阵 散点图 3、特征工程 数据质量处理 缺失值处理 数据去噪 数据分离 离散型特征编码 (one-hot encode )独热编码可以用pandas的get_dummies方法(哑编码)或者
2020-05-15 06:27:35 582
原创 机器学习笔记2:线性回归
线性回归: 1、本质就是找到x对应的y(实数R)。 损失: 1、L1损失:对噪声不敏感,存在不可导点,求导计算不方便; 2、L2损失(残差平方和:RSS):对噪声敏感,处处可导,求导计算方便; 3、Huber损失:对噪声不敏感,处处可导,求导计算方便; 过拟合 1、在训练集上误差小,测试集上误差大。防止过拟合的三个方法: 增加数据样本量; 增加正则项; 减少样本的方差(噪声) 2、L2正则:RS...
2020-05-13 22:43:57 321
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人