数据分析需要掌握的基础知识总结
目前说到数据建模,数据挖掘,大数据分析,就会比较偏向技术,大多数聊的内容都是一些模型的技术实现,需要用到的技术。但是后来发现更多的还是要理解我们数学上统计学的概念,和一些基本方法。
更重要的还是要做数据模型挖掘这个领域的业务知识,只要熟知相关领域的业务知识才能利用技术解决业务上的一些问题。
我这里忽略的还是基本工具的使用,在大数据分析,数据挖掘这项技术普及之前,我们还是要掌握我们常用的一些普遍工具的使用。
有些问题不用上升到需要建模型的程度,一些很普遍的工具用起来更方便,更快捷,也更好理解。
- 统计学的一些基本概念
- 业务知识的学习
- 基础工具的使用-Excel
- 数据分析的一般方式
- 数据分析后的可视化
- 对数据的总结报告
异常值的处理办法(离群点)
异常值在我们的数据中是指有些数据和我们其他数据差别很大的个别数据。
比方说可能录错的数据,或者极个别正确但和其他数据差距很大的数据,如工资多数人1万。个别人10万。这种情况,我们做的处理有:
- 删除-删除那些我们没办法补充和修改的离群点数据。
- 修改-修改那些错误数据-前提是你确实知道正确的数据
- 用样本的平均值进行填充
我理解的这几个方面还是要保证数据样本的准确性,只有这样使用模型计算出来的结果才能更准确,才更有参考价值。