数据挖掘与数据分析项目链家租房数据(二)从性价比看链家推荐是否存在套路。

今天看到之前没传完整,这次把它全部上传了。
未进行再次加工,代码见资源中的exploration

1、目标问题

链家网租房信息页面所展示的信息大部分为硬性的统计指标,如地区、户型、朝向、面积、租金等,以及“近地铁”、“新上”等一些较为客观的概括性信息,但同样可以发现,部分房源被标注为“必看好房”,也就是被推荐的意思,而这一信息是否在正确引导使用者,我们平常又能否相信呢?
在这里插入图片描述

以下计划分为两步进行探索,首先讨论被推荐房源与其它硬性指标是否具有相关性;其次尝试利用价格指标来探索被推荐房源的“好坏”,即认为被推荐房源应当在其它条件相同时具有价格优势。
具体上,我们首先将房源数据按照是否被推荐分类,其次利用非被推荐一类的房源数据构建租房价格预测模型,最后将被推荐的房源数据代入,比较真实价格与预测价格相比是否具有优势。

2、数据描述及数据预处理

我们在链家租房网上采集了14490条上海地区的出租信息,特征包括地区、街道、小区名、面积、朝向、房型、各类房间数、楼层、楼层数、价格、是否有钥匙(随时能看)、是否为业主自荐、是否新上、是否靠近地铁、是否精装修、是否押一付一、信息维护时间、是否为被推荐。
首先将分类型特征转化为哑变量,将其中类别较少的分类型特征与连续型特征一起计算相关系数的绝对值,热力图如下,由图可见,被推荐的房源与其它其它特征无相关性,说明是否被推荐并非由单一的特征决定,可能是各特征综合影响的结果。此外,还可以发现,价格指标与卧室数量存在一定相关性,各类房间数量之间存在一定相关性,新上房源与业主自荐存在一定相关性。
在这里插入图片描述
其次,我们对上述未涉及的有较多类别的分类指标(包括地区、街道、小区)与是否被推荐指标一同分析。
地区特征中,16个地区房源与推荐房源数量见下图,如图可见,房源数量最多的前五个地区分别为浦东、闵行、徐汇、松江、长宁,对应房源数量、推荐房源数量、推荐比为:(3925,1046,0.2665),(1562,384,0.2458),(1099,301,0.2739),(1013,216,0.2132),(921,179,0.1944),推荐房源总数/房源数量 为 3604/14490,比例为0.2487,两者对比可见,所在地区与是否被推荐没有明显关系。
在这里插入图片描述
街道特征中,共有189个不同街道信息,其中房源数量前五的街道对应房源数量与推荐房源数量信息见下图,两者比例在0.2487上下变动,且样本数量较少,无法得出所处街道与被推荐是否存在关系。
在这里插入图片描述
而对于小区特征中,共计4823个不同小区,使得该类特征几乎没有意义。
最后观察被推荐房源与未被推荐房源的价格指标,基本指标与箱线图见下图,被推荐房源与未被推荐房源数量分别为3604,10886,箱线图中均看到上方存在较多异常点,即存在部分价格高出平均水平许多的房源,在未被推荐的房源中尤为明显。且由均值与标准差可见,被推荐房源平均价格6222.9元/月远低于未被推荐房源12218.65元/月,且价格也较为集中,较为符合一般人的需求。由此见,被推荐指标确实存在一定的主观性、目的性,但是否真的“好”仍待商榷。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3、建模与结果

由于本质上仍是一个房价预测模型,首先尝试利用线性回归模型,分类特征创建了过多哑变量,首先进行方差筛选,去除频率在98%以上或2%以下即方差小于0.02*0.98的哑变量特征,除价格与是否被推荐外,剩余共39个特征。
利用未被推荐的房源数据作为训练与测试集构建线性回归模型,得到R2,MAE(MAE为逆标准化后取值)分别为(0.4517, 7175.1253),说明模型拟合较差,对预测值与真值描点后见下图,由左图可知,尾部点存在较大偏差,即价格较高的房源的预测值可能远低于预测值。对于被推荐房源有着类似结论(右图),该结论可能由于部分豪宅的价格因素与正常需求的价格影响因素不太。

在这里插入图片描述
在这里插入图片描述

利用该模型预测的被推荐的房源租房价格与真实值的MAE(逆标准化后)为1595.7840,而平均误差(MAE去掉绝对值)为1.42,按此解释即被推荐的“好”房仅比未被推荐的同类型预期值低了1.42元/月,且由于误差较大,结论性不强。
由上图分析,及被推荐房源与未被推荐房源的价格指标的箱线图描述,接下来尝试剔除价格较高的房源信息重新建模,以期模型更具线性且拟合更好。参考描点图,计划选用未推荐房源的90%分位数即25000元/月作为阈值,去除高于该值的数据点,将结论限于合理范围内的租房行为。
更新数据集后,被推荐房源数据3596条,未被推荐房源数据9850条,重新利用未被推荐的房源数据建模后,模型R2,MAE分别为0.6158, 2374.3627,可见模型拟合程度有所提高,重新描点后,没有明显异常,此时利用模型预测的被推荐的房源租房价格与真实值MAE为1803.6134,去绝对值后平均误差为827.2861,按此解释即被推荐的“好”房比未被推荐的同类型预期值平均低827.2861元/月,此时有一定说服力。
在这里插入图片描述
在这里插入图片描述

4、结论与反思

根据预测结果,被推荐的房源租房价格与真实值MAE为1803.6134,去绝对值后平均误差为827.2861,且由描点图看,预测值相对真实值向上偏离,相较于价格均值,偏离幅度在10%左右,与预期猜想较为符合,即对于正常租房需求的房源(月租金低于25000元/月),标注为“必看好房”的被推荐房源在其它条件类似时,存在一定的价格优势(平均为827元/月),符合正常的认知,使用者是可以适度采信的。
但注意到模型拟合程度并不高,R2仅为0.6158,仍存在改进空间,尝试利用岭回归,并没有获得理想效果,其余模型有待尝试。除模型本身外,结论说服性一般,便宜10%符合一般认知,但MAE同样较高,存在偶然可能。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值