1.概述
狭义的数据分析 是获取数据,探索分析数据,并可视化数据。
相关理论:
集中趋势:均值、中位数与分位数、众数
离中趋势:标准差与方差
数据分布:偏态与峰态、正态分布、三大分布
抽样理论:抽样误差、抽样精度
2 .数据分析演练:
读取并分析数据,获取数据各属性, 通过计算均值、方差、最大值、最小值等增加对数据的了解。
python 源码 参见 2_main
https://github.com/cyy111/Data-Analysis-and-mining-modeling
3.数据可视化
处理数据,并以图形形式展示。
可以选择柱状图、直方图、散点图、箱线图、折线图等展示、更清晰明了!
4.探索性数据分析
主要是研究多因子与复合分析,展现数据全貌
相关理论:假设检验与方差检验–卡方检验、方差检验
相关系数:皮尔逊、斯皮尔曼
回归:线性回归
PCA与奇异值分解
5.数据预处理和特征工程
数据清洗:数据样本抽样,去除异常值
特征预处理
6. 分类
7.回归
8. 机器学习
9. 模型评估
分别是分类、回归、关联和聚类模型评估。
更多详情 参见源码
https://github.com/cyy111/Data-Analysis-and-mining-modeling