数模国赛——数据统计类赛题

模型准备(数据预处理和初步分析)

数据搜集

在这里插入图片描述
在这里插入图片描述

数据预处理

①数据清洗(删除处理无关/缺失/异常值)
②数据集成(合并多个数据源)
③数据规约(降低数据维度)
④数据变换(规范化、离散化、数字化)

数据清洗

①清洗对象:缺失值、无关值、重复值、异常值

缺失值处理

①删除含有缺失值的记录(适用于缺失数据量不大且不影响整体数据分布的情况)
②使用平均值、中位数、众数进行填充
(a)数值型数据:平均值/中位数(考虑数据分布情况选择填充策略)
(b)分类型数据:通常使用众数填充
③不处理(可以证明缺失值存在的合理性)

异常值检测与处理

①基于统计方法的异常值检测:(a)3sigema原则
在这里插入图片描述
②基于可视化的异常值检测:箱线图(适用于大多数情况)
在这里插入图片描述
③异常值修正或处理:等同于缺失值处理

箱线图

在这里插入图片描述

去除重复数据

①:根据所有列或指定检测重复记录:
(a)使用特定的数据标识符或组合列检测重复
(b)确保数据的完整性和一致性
②删除重复记录:
(a)根据业务逻辑选择保留哪些记录
(b)保持数据集的简洁性

数据变换

在这里插入图片描述

数据集成

在这里插入图片描述
在这里插入图片描述

数据归约

①数据归约:对数据集进行处理,以减少数据的维度,同时保留数据集的关键特征和信息。
②:维归约、数量归约、数据压缩

维归约

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

数量归约和数据压缩

在这里插入图片描述

数据变换

在这里插入图片描述

数据分析

模型的建立

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值