所遇到情况描述:
目前,有些地方环境污染情况较为严重,地方相关单位会对问题进行排查,针对这些反馈的排查情况,来预测未来哪些区域可能会存在问题,然后将这类有问题的区域提前推给相应的主管单位。
说说我们team在之前碰到此类问题,所采取的解决方式基本都是粗放型,主观性很强。通过分析局部区域污染物浓度(过去几天的数据),定个标准值来判断哪些区域是否有问题,但这种指标的筛选显得太过随意,采用的大多也是一些经验公式。基于此,想着是否能够采用机器学习的办法来找到一种更合理,推荐更准确的办法。这样,针对这种根据业务分析选择算法的简单应用场景开启了。
如果有大量的数据,咱们能进行各种模型的试验就行了,问题在于数据较少,不过千条,好在后续数据会增加,基于这样的一种情况,选定了一种先简单后复杂的尝试方式。未来会伴随着数据量增加,且业务的时效性强,这时我们考虑的是采用逻辑回归二分类算法来解决。在开始满怀信心筹划这件事时,第一个拦路虎出现了,那就是非结构化的数据清洗,这个非常费时间与精力,相信大家如果处理过此类问题应该深有体会。当数据清洗整理完后,还需要对特征数据进行处理,也就是特征工程,这个需要对业务有相当的了解。在处理完数据,可以上模型了吧?还不行,选择什么样的模型,什么样的参数呀?所以还得有个model_selection,在业务中由于是分类问题,所以我选了svc、决策树、随机森林、ada以及xgb等复合模型。在各种初始调优后终于可以开始进入模型训练了,等等,有些特征可能会用不着从而造成模型的泛化能力较差,基于此