[中奖]第九届“泰迪杯”挑战赛A题

最新推荐文章于 2024-03-28 16:32:55 发布

JxWang05

最新推荐文章于 2024-03-28 16:32:55 发布

阅读量4.3k

点赞数 7

本文链接：https://blog.csdn.net/weixin_52202311/article/details/118879097

版权

题目¹如下：

在这里插入图片描述

赛题有2个点，分别是：

最开始的想法是直接跑树模型，然后看看谁的权重大就选谁，然而问题出在样本比例上。

后来查到了一个方法，Null Importances⁶⁷⁸。

其思路大概是，先用正确的标签计算一下各个特征对于分类的重要性，然后打乱标签，再计算特征的重要性。如果一个特征真的对分类有用，那么他应该在真实的标签下展示高重要性，而在错误的标签下展示低重要性。

对于第一题而言，我们分两类情况来考虑：

对于整个行业没有造假记录的数据来说：

先对各个数值特征（好像所有的特征都是数值特征？）计算方差，取方差较小的特征为重要特征。因为该行业没有造假，所以其与造假相关的特征应当表现出聚集的趋势，即都没有造假，也就是方差较小的特征。然后随机赋予标签，计算其互信息⁹（mutual_info_classif）。然后用前一个的特征集合减去后一个的特征集合，留下的即为关键特征。
对于整个行业有造假记录的数据来说

先对正确的标签计算互信息⁹，然后随机赋予标签，再计算其互信息⁹。取两者的差集为关键特征。

这一题将数据分成了2个行业，制造业和非制造业。虽然样本还是很不均衡，但至少，正负样本都有。

其实模型训练的结果并不乐观，因为样本分布的不均衡。后来有一些其他想法：

啊，对了，我当时参考博文¹⁵，用pandas-profiling还跑崩了¹⁶，数据太多。

关注