【EDA】数据类可以做哪些分析

数据类项目EDA可以从哪些角度,做哪些分析。

数据情况

拥有哪些测点
各数据采样频率、存储规则
各数据数据量、缺失情况,缺失率
数据是否需要填充?应该选择何种填充方式?

数据分布

均值,标准差
画图:
山峦图,箱型图,小提琴图
观察:
数据是否正态?偏态?峰态?
异常值:
mean左右各3σ为阈值,剔除outlier。
多峰的数据,可能需要通过在时段片段内找到最高的峰来出去其他高斯峰对应的异常值。
有的异常值也可以通过滤波来处理。

相关性

Pearson,spearman,Kendall,P-value,秩相关系数,偏相关、复相关系数

Pearson® VS Spearman (ρ):
Pearson 适用于两个变量之间的线性关系,而Spearman适用于单调关系
Pearson 处理变量的数据原始值,而 Spearman 处理数据排序值(需要先做变换,transform)
reference:https://zhuanlan.zhihu.com/p/465213120

时序波形

各变量之间时滞关系
各变量之间趋势关系
可以使用双Y轴图
每次正常生产的持续时长、每次正常生产的产品质量/米数/重量等
各变量自身周期时长、幅度
各变量调整步长
某变量调整后,其他相关变量响应时长、响应幅度
信号滤波观察趋势:高斯混合滤波GMM,滑动平均滤波,卡尔曼滤波,中值滤波(scipy.signal.medfilt),一阶(αβ)滤波

统计分析

1.确认目标有几个,如果有多个,要控制变量对每个目标做分析,占比。
2.合格点数占比
超限点数,占比;超上限/下限

时频域分析

EEMD算法
傅里叶变换
Hilbert变换

特征工程

在这里插入图片描述
【上图摘自博文:https://blog.csdn.net/qq_39521554/article/details/78877505】
如果是时序数据,可以从时间上和空间上两个角度去构造特征。
或者通过机理中公式中变量的关系式,来提取多变量相乘/相除等特征。
ACF PACF

特征重要度评估

随机森林random forest
RF的特征重要度评估的三种关键方法:
https://developer.baidu.com/article/details/3263004
XGBoost也可以做特征重要度评估。
但值得注意的是,只有该模型效果较好的情况下,该模型的特征重要度才有参考意义。否则模型效果不好,特征排名高并不代表什么。这种树模型的特征重要度来看关键特征的方法,一般只适合低维度小样本的数据集,本质上是在原来作为特征的输入中,去找到可能影响了评价指标80%的特征。对于一些其他特征对模型的评价指标带来的提升很少甚至没有的,考虑去掉。来减少特征的维度。
在特征选择的时候也可以考虑无监督聚类方法。

数据降维

PCA的方法形成的是新的特征,可以通过载荷值的方式来反映到原来特征上。以判断哪些是主成分。

特征提取

特征提取
定义:
将原始数据转换为适合机器学习算法处理的格式的过程。
目标:
从原始数据中提取出最具代表性的特征,以便机器学习算法能够更好地学习和预测目标。
方法:
PCA,特征选择,特征构造。

模型尝试

模型可解释性

SHAP
LIME

图:PDP ICE PFI

reference:
https://blog.csdn.net/qq_45100200/article/details/130020183
https://zhuanlan.zhihu.com/p/364921771
https://blog.csdn.net/yeshang_lady/article/details/129021757

分析总结

1.有什么规律,趋势上的,时滞上的
2.对于我们的目标,还缺乏什么条件
3.对于需要稳定某个变量的情况,哪些因素会导致这个变量波动?调节的难易?把每个因素找出来逐个击破找到相应的办法。

后续工作

相关问题

可行性、难点评估

可行性判断:
1.关键参数是否都是在线自动采集的,时间戳是否可信
2.满足1的条件下,在已知的工艺机理下,看关键参数与目标参数是否有明显的相关性
3.满足2的条件下,尝试建立回归等模型,看baseline的评价指标,例如R2。

先宏观 再微观。

目的

做数据EDA,我们究竟想要达到什么目的,有什么样的输出?
1.数据基本情况认知,可视化
2.特征选择
3.target与什么测点相关,与什么特殊分类相关,比如生产状态,倒班等
4.target与关键特征的timelag
5.控制变量的调节频率

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值