今天开始看视频来学习SAS,在这里记录看视频的一些心得与笔记:
一 数据模型共六层:(BI指345层)
6BOSS决策
5数据展现层
4数据挖掘,和传统统计分析不一样,统计分析的目标很清楚手段也很明确,但是数据挖掘目标手段都不明确,能挖出什么来也不确定,数据挖掘和数据分析界限不是很分明,统称为分析层
3统计分析、查询,观察数据状态,如通过平均值、方差、count()、排序等。
2数据仓库层存储层,存放准备用来进行数据分析的数据,数据仓库产品需要支持:OLTP(联机事务处理)指零散的在数据库中进行查询等,要求OLAP(联机分析处理)值对大量数据进行计算,通过结果对经营支持。数据集市指小型的数据仓库给部门用的,从源数据中把要用的拿出来供自己使用。
1最底层是数据源,运营商为通话等记录数据,生产线上的源数据,底层生产数据维护的岗位就是DBA。数据源要经过ETL(抽取、粗加工预统计、装载)扔到数据仓库中。
二 常用的统计指标
1 集中趋势指标:(1)均值
(2)中位数 比他大的有50%样本,比他小的有50%样本
(3)众数 出现频率最高的数
2 变异性指标 (1)极差 极大值减去极小值
(2)方差 每个样本减去均值后的差,算平方,将所有的平方加起来除以N-1,方差刻画了数据的分散程度,值越大,说明越分散
方差为0,说明数据是同一个常数
(3)标准差 也是用来分析数据分散程度的,但是计算方法有些不同
3 变异性指标 (1)偏度 是不是符合正太分布,描述驼峰是正的还是偏的
(2)峰度