数据分析
文章平均质量分 84
AI-w
这个作者很懒,什么都没留下…
展开
-
异常检测——高维数据异常检测
异常检测——高维数据异常检测一个物体可能有几个被测量的量,这个物体的显著异常行为可能只反映在这些量的一小部分中。 也即,一小部分的测量的数据中可能可以找到异常值,因为数据维度不高,但是当来自测量的数据以全维度表示时,异常数据点将在几乎所有数据视图中显式为正常。即大量正常测量的噪声变化将掩盖异常值。 因此,异常值通常嵌入到局部相关的子空间中。 因此,探索低维子空间以获得感兴趣的偏差是有意义的。这种方法过滤掉了大量维数的加性效应,并导致了更健壮的异常值。在实际场景中,很多数据集都是多维度的。随着维度的增加,原创 2021-05-23 21:15:03 · 483 阅读 · 0 评论 -
模型融合
Datawhale 零基础入门数据挖掘-模型融合一、模型融合目标对于多种调参完成的模型进行模型融合。完成对于多种模型的融合,提交融合结果并打卡。二、内容介绍模型融合是比赛后期一个重要的环节,大体来说有如下的类型方式。1、简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);分类:投票(Voting)综合:排序融合(Rank averaging),log融合2、stacking/blending:构建多层模型,并利用转载 2021-04-24 22:39:43 · 279 阅读 · 0 评论 -
建模与调参
建模与调参一、学习目标:了解常用的机器学习模型,并掌握机器学习模型的建模与调参流程完成相应学习打卡任务二、内容介绍1、线性回归模型:线性回归对于特征的要求;处理长尾分布;理解线性回归模型;2、模型性能验证:评价函数与目标函数;交叉验证方法;留一验证方法;针对时间序列问题的验证;绘制学习率曲线;绘制验证曲线;3、嵌入式特征选择:Lasso回归;Ridge回归;决策树;4、模型对比:常用线性模型;常用非线性模型;5、模型调参:贪心调参方法;网格调参方法;贝叶斯调参方法6、推荐了一些转载 2021-04-22 22:40:43 · 534 阅读 · 0 评论 -
天池二手车预测 特征工程
天池二手车预测 特征工程original:Datawhale一、特征工程一般是对数据进一步分析处理,提取需要的数据特征,对数据特征进行分析处理,达到所需要的数据特征目标。特征工程一般包括:特征构造、特征选择、异常值处理、降维等操作。1、特征构造一般从特征领域、交叉特征、多项式特征考虑。统计量特征:计数、求和、比例、标准差等;时间特征:相对时间和绝对时间,节假日,双休日等;空间特征:包括分箱,分布编码等。处理方法:非线性变化、特征组合、特征交叉;核心概念:根据数据洞察和业务理解2、特征原创 2021-04-19 21:04:57 · 258 阅读 · 1 评论