一个糟糕的思路

2.1. Logistic模型的缺陷
在Logistic模型中,为了处理有偏数据的影响,我们对除citric_acid(柠檬酸含量)和density(密度)之外的9个自变量均作了对数化处理,然而这种处理显然不一定和实际情况相一致。甚至从常理分析,这些描述理化性质的变量对于品质的影响很难说是严格正/负相关的。以Ph值为例,Ph值是衡量溶液酸碱度的变量,具体说,是衡量溶液中氢离子浓度的指标,服从Ph=-Log(c(H+)),纯水的Ph值为7。Ph值太高太低都会对口感造成糟糕的影响,甚至对健康造成危害,这个变量显然和品质不是正/负相关的关系,简单的对数化处理无法表现其与因变量的关系。
其次,模型没有考虑各个自变量的交叉项,但实际上恰恰是这些理化变量之间的相互作用,才形成了酒综合的口感。以在模型中统计显著性(p值)和经济显著性(系数)表现最好的alcohol(酒精浓度)变量为例。参照权威品酒机构的评论,酒精、单宁、酸度、甜度和香气是影响葡萄酒风味的 5 大重要因素,这5个要素的量相互和谐,相互平衡时,口感体验才较好。当酒精度水平要明显高于其他影响口感的要素时,浓烈刺鼻的酒精会掩盖葡萄酒的其他风味,带来不愉快的口感体验,而当酒精度低于其他要素的水平时,也会导致口感平淡乏味,且不足以支撑酒体。只有结构平衡的葡萄酒,即便酒精度高也不会让人感觉到有特别突出的酒精味,反而会被评价为“Powerful”。但即使考虑到交叉项的存在,应当添加哪些变量的交叉项,这些变量间又当如何组合,Logistic模型无法智能地对这种多变量综合效应做探讨,而人工地对这些变量简单组合,一个个地进行尝试,无疑是效率低下,且可靠度存疑的。
最后,变量之间的多重共线性极大的削弱了模型的解释力度,而对数据降维处理后,模型的预测准确度进一步下滑到只有67.8%的水平,考虑到两分类中多的一类比例为54.3%,这个结果无疑是无法让人满意的,这也体现出降维处理带来的信息损失对模型造成的损害。
总结来说,Logistic模型是这些所有模型中,对因变量与自变量,以及自变量之间组合关系限制的最为严格,自主调整性最弱的模型,这对于处理红酒这样变量间具有较强交互关系,存在共线性现象,且大量自变量与因变量并非严格正/负相关关系的数据无疑是不利的,因此在预测中表现不佳也在意料之中。
2.2. 随机森林模型的优缺点
随机森林模型是一种用于数据挖掘的集成学习算法,通过建立几个决策树模型组合的来解决单一预测问题。它的工作原理是生成多个决策树,各自独立地训练和作出预测,最后依靠于决策树的投票选择来决定分类结果。
随机森林的一个优势是对数据的适应能力强,离散和连续数据均能处理,也无需对数据做规范化,能够处理具有高维特征的输入样本,通过评估各个自变量在问题上的重要性做出判断,不需要降维,这避免了在处理复杂样本时碍于变量的自身性质,以及相互间的强相关关系不得不进行降维操作而损失信息量。
其次,随机森林基于决策树模型进行分类,通过深化分支,可以对变量间的交互关系进行信息利用,同时也无需对因变量与特征之间的关系做具体假定,只要大体服从正/负相关关系,就可以取得良好的效果。
再次,随机森林通过采取有放回随机抽样为各个决策树筛选训练集,使各个决策单元的学习过程求同存异,这使得模型不容易陷入过拟合,也具有良好的抗噪效果。
但该模型也绝非尽善尽美,由于随机森林本质上仍是基于决策树组合构建的模型,在因变量与特征非严格正/负相关时仍会出现误差,或是简单的降级这一特征的重要性,导致信息的损失。最后,随机森林无法像回归方法一样,给出一个简单的公式结论,其训练后的结果是一个黑箱,这某种程度上影响了模型的解释力。
2.3. 总结
综合来说,分类问题中,在面对自变量间具有较强交互关系、因变量与自变量关系复杂的高维样本时,随机森林模型对于以Logistic为代表的传统的回归模型具有一定的优越性。但当处理变量间关系更为简单明晰的样本时,使用这类集成学习方法反而会影响模型的解释力,这时经典的回归方法仍有用武之地。而本次处理的数据,无疑是属于前者的。
一种可能的思路是,根据随机森林的输出结果,对变量间的函数关系做假定,在此基础上进一步使用Logistic回归方法做拟合,使得模型兼具预测的准确性与经济上的解释力,这就留待在日后的数据挖掘实战中检验进行了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值