天池-NLP文本分类挑战赛（2）

最新推荐文章于 2025-02-14 22:15:19 发布

An_ich

最新推荐文章于 2025-02-14 22:15:19 发布

阅读量145

点赞数

文章标签： python 开发语言人工智能网络算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_62891098/article/details/134408070

版权

本文详细介绍了竞赛中的关键步骤，包括赛题理解、数据分类、结构化和非结构化数据分析、特征工程（包括清洗、转换和选择）、不同类型的机器学习模型选择、模型集成以及数据扩增策略。强调了AUC在评估数据分布一致性的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

竞赛流程

赛题内容

赛题主题、赛题任务、评分方法、赛题时间

根据背景、任务和数据进行分类

结构化赛题

非结构化赛题：图像、文本、语言

赛题数据

数据分析、数据理解、数据处理

单个字段分析：类别变量、数值变量、时序变量（变量的分布）

数据分析思路

分析单个变量

分析多个变量

读取并分析数据质量

探索性分析每个变量

变量类型

缺失值、异常值、重复值

是否均匀

是否需要转换

分析变量与标签的关系

是否存在相关性

是否存在业务逻辑

连续型变量与连续型变量

离散变量与离散变量

检查变量之间的正态性

结论

变量是否需要筛选、替换和清洗

变量是否需要转换

变量之间是否需要交叉

变量是否需要采样

特征工程

特征转换、特征构建、特征选择

特征清洗

异常点检测

不均衡采样

特征预处理

特征缩放

补充缺失值（imputation）

特征编码

类别特征

数值特征

日期特征

文本特征

图像特征

特征筛选

filter

wrapper

embedded

构建模型

模型训练、模型验证、模型调参

机器学习模型：

不同的模型有不同的偏好

结构化数据优先考虑树模型

非结构化数据优先考虑深度学习

模型集成

vote

blend

stacking：让二次模型学习一次模型真实标签和预测标签之间的残差

数据扩增

随机插入

相似词替换

随机删除

交换句子位置

预测打分

模型集成、打分反馈

分布一致性

Adversarial Validation：构建分类模型，分辨训练集和测试集的来源

AUC接近0.5：训练集和测试机分布比较一致

AUC接近1：训练集和测试机分布不太一致

博客等级

码龄4年

51
原创

672
点赞

616
收藏

462
粉丝

关注

私信

热门文章

分类专栏

最新评论

pytorch国内镜像下载
2401_85376788: 两分钟，为啥你这么快
llama网络结构及源码
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN月度精选】榜单，全部的排名请看 https://bbs.csdn.net/topics/619394139。
llama网络结构及源码
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619312052。
pytorch国内镜像下载
冷血霸王龙: 三个包的版本是怎么确定的
Docker
普通网友: 文章构思巧妙，结构紧凑，既有深度又有广度，读后让人受益匪浅，确实是一篇值得一读的佳作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。