自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 机器学习笔记3:使用sklearn进行线性回归的基本流程

1、数据读取 df = pd.read_csv(“xxx.csv”) 2、数据探索 数据基本信息探索 单变量分布分析 数值型特征 直方图 箱体图 boxplot& 提琴形图Violinplot 离散型特征(类别型特征) 频率表 value_counts() 条形图 countplot 两两特征之间的相关性 相关矩阵 散点图 3、特征工程 数据质量处理 缺失值处理 数据去噪 数据分离 离散型特征编码 (one-hot encode )独热编码可以用pandas的get_dummies方法(哑编码)或者

2020-05-15 06:27:35 582

原创 机器学习笔记2:线性回归

线性回归: 1、本质就是找到x对应的y(实数R)。 损失: 1、L1损失:对噪声不敏感,存在不可导点,求导计算不方便; 2、L2损失(残差平方和:RSS):对噪声敏感,处处可导,求导计算方便; 3、Huber损失:对噪声不敏感,处处可导,求导计算方便; 过拟合 1、在训练集上误差小,测试集上误差大。防止过拟合的三个方法: 增加数据样本量; 增加正则项; 减少样本的方差(噪声) 2、L2正则:RS...

2020-05-13 22:43:57 321

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除