自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 task 5 打卡

task 5 打卡在比赛中利用模型融合,将不同队友的模型进行合并提升分数(往往模型相差越大且模型表现都不错的前提下,模型融合后结果会有大幅提升)模型融合方法:平均:简单平均法加权平均法投票:简单投票法加权投票法综合:排序融合log融合stacking:构建多层模型,并利用预测结果再拟合预测。blending:选取部分数据预测训练得到预测结果作为新特征,带入剩下的数据中预测。boosting/bagging其中stacking:将若干基学习

2020-09-27 20:35:28 79

原创 打卡任务

马上入学考试,随便写写了还是太小白了,留下这些链接以后看吧4.3.1 逻辑回归模型https://blog.csdn.net/han_xiaoyang/article/details/491234194.3.2 决策树模型https://blog.csdn.net/c406495762/article/details/762624874.3.3 GBDT模型https://zhuanlan.zhihu.com/p/451458994.3.4 XGBoost模型https://blog.cs

2020-09-24 18:28:08 239

原创 task3 学习总结

task3 学习总结最近适逢刚开学,课业太紧,对这块又过于小白,对python基础语句都不熟练。。。更多的是看官方资料的随手记吧,确实收获不少,还要继续深入学习。勉励自己一下利用pandas读入数据,首先进行数据的预处理,数据特征会有缺失值,时间,对象类型特征,类别特征等。1.利用fillna进行缺失值的填充:可以填充为0;利用上值或下值进行填充;利用数据平均数,众数进行填充。2.对于时间特征,#转化成时间格式for data in [data_train, data_test_a]:

2020-09-21 22:25:51 338

原创 学习总结

学习总结利用pip安装相关库首先使用pandas进行数据 读取,pandas读取数据时相对路径载入报错时,尝试使用os.getcwd()查看当前工作目录。读取文件的部分(适用于文件特别大的场景)通过nrows参数,来设置读取文件的前多少行,nrows是一个大于等于0的整数。分块读取 chunksizedata_train_sample = pd.read_csv("./train.csv",nrows=5)#设置chunksize参数,来控制每次迭代数据的大小chunker = p

2020-09-18 22:07:48 108

原创 贷款违约预测赛题理解

贷款违约预测赛题赛题明显是个二分类问题,可能建立回归模型?判别贷款者是否会出现违约行为。数据集中包含47个变量,其中32个有特征定义变量,15个匿名变量。其中包含三个脱敏变量赛题采用AUC作为评测指标,AUC是ROC曲线与x轴围城面积。ROC曲线横坐标为假正例率(FPR),纵坐标为正例率(TPR)。其中TPR定义为在所有实际为正例的样本中,被正确地判断为正例之比率。FPR定义为在所有实际为负例的样本中,被错误地判断为正例之比率。在模型中,我们需要设定不同的阈值score作为预测点分类判别标准。如

2020-09-15 19:00:49 289

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除