【学习】数据分析-SEMMA步骤解析

最新推荐文章于 2023-10-17 09:39:40 发布

VIP文章 zfh_0916

最新推荐文章于 2023-10-17 09:39:40 发布

阅读量1.3k

点赞数 2

分类专栏：笔记文章标签：数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zfh_0916/article/details/106673553

版权

S：Sample（搜集数据）

基于需求，有针对性的搜集可以解决问题的数据。常用的搜集手段有：
• 问卷调查
• 数据库查询
• 实验室试验
• 仪器设备的记录
例如：影响收入的因素有哪些？如何预测他的收入范围呢？

E：Explore（数据探索）

通过数据探索，以求对数据的进一步了解。常用的探索方向有：
• 离散变量的分布比例
• 连续变量的分布形态
• 数据的异常和缺失
• 特征选择
例如：各变量的缺失状态？统计描述？数据分布形态？

M：Modify（数据修正）

数据修正，便于下一步的分析和建模。常用的修正方法有：
• 数据类型的转换
• 数据的一致性处理
• 异常值和缺失值的处理
• 数据形态的转换
例如：各变量中的缺失数据该如何处理？离散变量如何数值化？

M：Model（数据建模）

数据建模，侧重于未知事件的预测。常用的模型有：
• 有监督的预测性模型（如回归、决策树、KNN等）
• 有监督的判别性模型（如Logistic、贝叶斯、集成算法等）
• 无监督模型（如Kmeans聚类、层次聚类、密度聚类等）
• 半监督模型（如关联规则等）
例如：如何基于调查数据，预测用户的收入水平？

A：Assess&#

最低0.47元/天解锁文章

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
【学习】数据分析-SEMMA步骤解析

S：Sample（搜集数据）基于需求，有针对性的搜集可以解决问题的数据。常用的搜集手段有：• 问卷调查• 数据库查询• 实验室试验• 仪器设备的记录例如：影响收入的因素有哪些？如何预测他的收入范围呢？E：Explore（数据探索）通过数据探索，以求对数据的进一步了解。常用的探索方向有：• 离散变量的分布比例• 连续变量的分布形态• 数据的异常和缺失• 特征选择例如：各变量的缺失状态？统计描述？数据分布形态？M：Modify（数据修正）数据修正，便于下一步的分析和建模。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。