《阿里云天池大赛赛题解析—机器学习篇》总结

目录

一、     常用回归预测模型... 9

线性回归模型:... 9

二、     数据处理... 14

变量分析总结:... 14

单变量分析... 14

双变量分析... 14

缺失值处理总结... 17

缺失值主要分为以下四类: 17

缺失值的处理万法... 17

异常值总结: 18

变量转换总结:... 18

常用方法:... 19

新属性生成总结:... 19

高维组合特征的处理... 19

生成的方法... 20

三、     特征工程... 20

特征处理... 21

标准化... 21

区间缩放法... 22

归一化... 22

定量特征二值化... 23

定性特征哑编码... 23

特征降维... 23

特征选择... 24

线性降维... 25

四、     交叉验证... 25

简单交叉验证... 26

k折交叉验证... 26

留一法交叉验证LOO—CV.. 26

留p法交叉验证... 26

五、     模型调参... 27

网格搜索... 27

随机搜索... 27

遗传算法(GA)... 28

六、     特征优化... 30

合成特征... 30

特征的简单变换... 30

用决策树创造新特征... 31

七、     模型融合... 31

Bagging. 31

Boosting. 32

预测结果融合策略... 32

Voting(投票机制)... 32

Averageandranking. 32

Blending. 33

Stacking. 33

八、     常见的数据分布... 34

伯努利分布... 34

二项分布... 34

超几何分布... 34

几何分布... 34

泊松分布... 35

指数分布... 35

九、     文本表示模型... 35

词袋模型... 35

n-gram... 36

主题模型... 36

十、     PyTorch搭建基础神经网络... 36

使用的算法包括线性回归(LinearRegressjon)、岭回归(RldgeRegression)、LASSO(LeastAbsoluteShrinkageandSelectlonOperator)回归、决策树回归(DeclsjonTreeRegressor)、梯度提升树回归(Grad1e11tBoostmgDecisonTreeRegressor等。通过查阅资料熟悉如何使用sklearn调用。

线性回归模型:

fromsklearn.model_selectionimporttrain_test_split

fromsklearn.linear_modelimportLinearRegression

x_train,x_test,y_train,y_test=train_test_split(a,b,test_size=0.2)

clf=LinearRegression()

rf=clf.fit(x_train,y_train.ravel())

y_pred=rf.predict(x_test)

  1. KNN回归模型

fromsklearn.neighborsimportKNeighborsRegressor

x_train,x_test,y_train,y_test=train_test_split(a,b,test_size=0.2)

clf=KNeighborsRegressor()

rf=clf.fit(x_train,y_train.ravel())

y_pred=rf.predict(x_test)

  1. SVM回归模型

fromsklearn.svmimportSVR

x_train,x_test,y_train,y_test=train_test_split(a,b,test_size=0.2)

clf=SVR()

rf=clf.fit(x_train,y_train.ravel())

y_pred=rf.predict(x_test)

print("SVR结果如下:")

print("训练集分数:",rf.score(x_train,y_train))

print("验证集分数:",rf.score(x_test,y_test))

  1. 岭回归模型

fromsklearn.linear_modelimportRidge

x_train,x_test,y_train,y_test=train_test_split(a,b,test_size=0.2)

clf=Ridge()

rf=clf.fit(x_train,y_train.ravel())

y_pred=rf.predict(x_test)

print("Ridge结果如下:")

print("训练集分数:",rf.score(x_train,y_train))

print("验证集分数:",rf.score(x_test,y_test))

  • 13
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值