- 博客(9)
- 收藏
- 关注
原创 数据挖掘训练营模型融合笔记
比赛的融合这个问题,其实涉及多个层面,也是提分和提升模型鲁棒性的一种重要方法:1)结果层面的融合,这种是最常见的融合方法,其可行的融合方法也有很多,比如根据结果的得分进行加权融合,还可以做Log,exp处理等。在做结果融合的时候,有一个很重要的条件是模型结果的得分要比较近似,然后结果的差异要比较大,这样的结果融合往往有比较好的效果提升。2)特征层面的融合。
2022-11-09 16:46:18 273
原创 数据挖掘训练营建模调参笔记
本学习笔记为阿里云天池龙珠计划数据挖掘训练营的学习内容,学习链接为:https://tianchi.aliyun.com/specials/activity/promotion/aicampdm 了解常用的机器学习模型,并掌握机器学习模型的建模与调参流1.读取数据 当数据内存占用特别大时,在处理过程中可能会爆内存,因此我们先减少数据占用的空间。2.交叉验证 要考虑时间顺序问题,比如不能用2018年去预测2017年的数据。3.建模 如果预测值与实
2022-11-07 15:35:14 345
原创 数据挖掘训练营特征学习笔记
特征工程是比赛中最至关重要的的一块,特别的传统的比赛,大家的模型可能都差不多,调参带来的效果增幅是非常有限的,但特征工程的好坏往往会决定了最终的排名和成绩。特征工程的主要目的还是在于将数据转换为能更好地表示潜在问题的特征,从而提高机器学习的性能。比如,异常值处理是为了去除噪声,填补缺失值可以加入先验知识等。特征构造也属于特征工程的一部分,其目的是为了增强数据的表达。
2022-11-06 15:33:16 89
原创 数据挖掘训练营数据分析学习笔记
对于数据的初步分析(直接查看数据,或.sum(), .mean(),.descirbe()等统计函数)可以从:样本数量,训练集数量,是否有时间特征,是否是时许问题,特征所表示的含义(非匿名特征),特征类型(字符类似,int,float,time),特征的缺失情况(注意缺失的在数据中的表现形式,有些是空的有些是”NAN”符号等),特征的均值方差情况。
2022-11-05 20:19:41 88
原创 数据挖掘训练营赛题理解学习笔记
本学习笔记为阿里云天池龙珠计划数据挖掘训练营的学习内容,学习链接为:https://tianchi.aliyun.com/specials/activity/promotion/aicampdm
2022-11-04 23:31:30 143
并行与分布式技术 关于KMeans算法的并行和分布式代码
2024-02-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人