天池-NLP文本分类挑战赛(2)

本文详细介绍了竞赛中的关键步骤,包括赛题理解、数据分类、结构化和非结构化数据分析、特征工程(包括清洗、转换和选择)、不同类型的机器学习模型选择、模型集成以及数据扩增策略。强调了AUC在评估数据分布一致性的重要性。
摘要由CSDN通过智能技术生成

竞赛流程

赛题内容

赛题主题、赛题任务、评分方法、赛题时间

根据背景、任务和数据进行分类

结构化赛题

非结构化赛题:图像、文本、语言

赛题数据

数据分析、数据理解、数据处理

单个字段分析:类别变量、数值变量、时序变量(变量的分布)

数据分析思路

        分析单个变量

        分析多个变量

读取并分析数据质量
探索性分析每个变量

        变量类型

        缺失值、异常值、重复值

        是否均匀

        是否需要转换

分析变量与标签的关系

        是否存在相关性

        是否存在业务逻辑

                连续型变量与连续型变量

                离散变量与离散变量

                检查变量之间的正态性

结论

        变量是否需要筛选、替换和清洗

        变量是否需要转换

        变量之间是否需要交叉

        变量是否需要采样

特征工程

特征转换、特征构建、特征选择

特征清洗

        异常点检测

        不均衡采样

特征预处理

        特征缩放

        补充缺失值(imputation)

        特征编码

                类别特征

                数值特征

                日期特征

                文本特征

                图像特征

特征筛选

        filter

        wrapper

        embedded

构建模型

模型训练、模型验证、模型调参

机器学习模型:

不同的模型有不同的偏好

结构化数据优先考虑树模型

非结构化数据优先考虑深度学习

模型集成
vote

blend

stacking:让二次模型学习一次模型真实标签和预测标签之间的残差

数据扩增

随机插入

相似词替换

随机删除

交换句子位置

预测打分

模型集成、打分反馈

分布一致性

Adversarial Validation:构建分类模型,分辨训练集和测试集的来源

AUC接近0.5:训练集和测试机分布比较一致

AUC接近1:训练集和测试机分布不太一致

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值