ZJNjr-CSDN博客

原创 task 5 打卡

task 5 打卡在比赛中利用模型融合，将不同队友的模型进行合并提升分数（往往模型相差越大且模型表现都不错的前提下，模型融合后结果会有大幅提升）模型融合方法：平均：简单平均法加权平均法投票：简单投票法加权投票法综合：排序融合log融合stacking:构建多层模型，并利用预测结果再拟合预测。blending：选取部分数据预测训练得到预测结果作为新特征，带入剩下的数据中预测。boosting/bagging其中stacking：将若干基学习

2020-09-27 20:35:28 79

原创打卡任务

马上入学考试，随便写写了还是太小白了，留下这些链接以后看吧4.3.1 逻辑回归模型https://blog.csdn.net/han_xiaoyang/article/details/491234194.3.2 决策树模型https://blog.csdn.net/c406495762/article/details/762624874.3.3 GBDT模型https://zhuanlan.zhihu.com/p/451458994.3.4 XGBoost模型https://blog.cs

2020-09-24 18:28:08 239

原创 task3 学习总结

task3 学习总结最近适逢刚开学，课业太紧，对这块又过于小白，对python基础语句都不熟练。。。更多的是看官方资料的随手记吧，确实收获不少，还要继续深入学习。勉励自己一下利用pandas读入数据，首先进行数据的预处理，数据特征会有缺失值，时间，对象类型特征，类别特征等。1.利用fillna进行缺失值的填充：可以填充为0；利用上值或下值进行填充；利用数据平均数，众数进行填充。2.对于时间特征，#转化成时间格式for data in [data_train, data_test_a]:

2020-09-21 22:25:51 338

原创学习总结

学习总结利用pip安装相关库首先使用pandas进行数据读取，pandas读取数据时相对路径载入报错时，尝试使用os.getcwd()查看当前工作目录。读取文件的部分（适用于文件特别大的场景）通过nrows参数，来设置读取文件的前多少行，nrows是一个大于等于0的整数。分块读取 chunksizedata_train_sample = pd.read_csv("./train.csv",nrows=5)#设置chunksize参数，来控制每次迭代数据的大小chunker = p

2020-09-18 22:07:48 108

原创贷款违约预测赛题理解

贷款违约预测赛题赛题明显是个二分类问题，可能建立回归模型？判别贷款者是否会出现违约行为。数据集中包含47个变量，其中32个有特征定义变量，15个匿名变量。其中包含三个脱敏变量赛题采用AUC作为评测指标，AUC是ROC曲线与x轴围城面积。ROC曲线横坐标为假正例率（FPR)，纵坐标为正例率（TPR)。其中TPR定义为在所有实际为正例的样本中，被正确地判断为正例之比率。FPR定义为在所有实际为负例的样本中，被错误地判断为正例之比率。在模型中，我们需要设定不同的阈值score作为预测点分类判别标准。如

2020-09-15 19:00:49 289

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 task 5 打卡

原创 打卡任务

原创 task3 学习总结

原创 学习总结

原创 贷款违约预测赛题理解

空空如也

空空如也

原创打卡任务

原创学习总结

原创贷款违约预测赛题理解