科大讯飞AI夏令营第三期笔记--Day3_科大讯飞ai研学营-CSDN博客

本文链接：https://blog.csdn.net/weixin_62439683/article/details/132502495

最后一次结营笔记

任务3：模型迭代优化

在进阶实践部分，将在原有Baseline基础上做更多优化，一般优化思路，从特征工程与模型中来思考。
1，特征选择与删除:分析特征的重要性，可以使用特征选择方法(如基于模型的特征重要性)来选择最具有预测能力的特征，也可以删除一些对模型性能影响较小的特征。
2.特征组合与交互:将不同特征进行组合、相乘、相除等操作，创建新的特征，以捕捉特征之间的复杂关系.

3.数值型特征的分桶(Binning): 将连续的数值型特征划分为多个区间，可以提高模型对特征的鲁棒性。（健壮性）

鲁棒是Robust的音译，也就是健壮和强壮的意思。它也是在异常和危险情况下系统生存的能力。比如说，计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下，能否不死机、不崩溃，就是该软件的鲁棒性。所谓“鲁棒性”，也是指控制系统在一定（结构，大小）的参数摄动下，维持其它某些性能的特性。根据对性能的不同定义，可分为稳定鲁棒性和性能鲁棒性。以闭环系统的鲁棒性作为目标设计得到的固定控制器称为鲁棒控制器。 [1]

4.类别型特征的编码: 除了One-Hot编码外，可以尝试使用其他编码方式，如Label Encoding、Target Encoding等，来更好地处理类别型特征。
5.时间特征的挖掘:除了示例中的日期和小时提取，还可以尝试提取星期几、月份等时间信息，可能会影响用户行为。
6，特征缩放:对数值型特征进行缩放，将它们映射到一个相似的范围，有助于模型收敛和性能提升。

实操步骤:

在现有特征工程基础上，加入新的特征观察模型F1是否发生变化
尝试三组能增加模型精度的特征，并记录下特征编码过程
将最优的特征从新训练模型，提交结果

经过一番学习改进，我们的评分也来到了0.74066

具体方案参考了Datawhale AI夏令营机器学习组学习日记（任务1）_m0_49558200的博客-CSDN博客

这位大神的操作，进行了数据的降维，同时特征标注时进行了时间戳数据的细分：星期

总的来说学习到了不少，学习是一个触类旁通的过程，学会大神的操作你也能获得一个理想的分数。

最后，感谢大家的耐心学习，相关的学习链接：

【学习手册】
https://datawhaler.feishu.cn/docx/HBIHd7ugzoOsMqx0LEncR1lJnCf
【一键运行baseline】
https://aistudio.baidu.com/aistudio/projectdetail/6618108?contributionType=1&sUid=1020699&shared=1&ts=1691406191660
【baseline解析视频】
https://www.wolai.com/stupidccl/qACtXEV3bGr6DfhkVK8FXv
【baseline运行视频】
https://meeting.tencent.com/user-center/shared-record-info?id=939ff28e-1108-49e4-89cf-bdd637e8067d&from=3&is-single=true&reload=1
【优质资料&答疑手册】
https://hdjgp4l67e.feishu.cn/docx/BDp8dPbJ2o4xuxxfcQ7c4toVnbh
【前两期优秀笔记】
https://datawhale.feishu.cn/sheets/SqkQsynjjhEh36tQFKxcsLEWnUf?sheet=b36d96