微软 excel 适用
目录
开启
【文件】【选项】【转到】
描述性统计分析
使用用户消费金额,来描述用户行为消费特征,分析了解用户消费分布
分组方式:指出输出数据展示是按列还是按行排列
标志位于第一行:没有勾选,这输出结果的列名以 列1,列2,列3 作为标志
汇总统计:包含平均值,标准误差,中位数,众数,标准差,方差,峰度,偏度,区域,最小值,最大值,求和,观测数等
置信区间:一般写为 90%,95%
第 K 大(小)值:表示输出数据组的第几位最大(小)值
表现数据集中趋势的指标有:平均值,中位数,众数
描述数据离散程度的指标有:方差与标准差
呈现数据分布形状的指标有:峰度系数与偏度系数
- 峰度系数是描述对称分布曲线顶尖峭程度的指标,是相对于正太分布而言,峰度系数>0,两侧极端数据较少比正太分布更高更瘦,呈尖峭峰分布;峰度系数<0,表示两侧极端数据多,比正太分布更矮更胖,呈阔峰分布
- 偏度系数是以正太分布为标准来描述数据对称性的指标,=0,分布对称;>0,频数分布的高峰向左偏移,称为正偏正太分布;<0,频数分布向右偏移,称为负偏正太分布
直方图
创建数据分组,,也可以不设置,excel 自动以数据的最大值及最小值之间的范围进行灯具分组
输入区域:数据源区域
接收区域(可选):组距数据区域
标志:勾选
输出区域:输出结果地方
柏拉图:勾选,则可以在输出列表中同时显示按降序排列的频率数据;若未勾选,则 excel 只输出按默认组距排列的频率数据
累计百分率:若勾选,则可以在输出表中添加一列累积百分比值,并同时在直方图表中添加绘制累积百分比的折线
图表输出:即绘制直方图
【柏拉图】【累积百分比】都勾选
只勾选【柏拉图】
只勾选【累积百分率】
只能处理简单的计数分组
抽样分析
有规律抽取,周期性间隔抽取
标志:勾选
周期间隔:若选择间隔抽样,则需要输入周期间隔
随机抽样:直接输入样本,系统自行进行随机抽样
注意:是有放回抽取,即任何数值都有可能被多次抽取,针对这个我们可以多尝试几次
相关分析
正负号,正负相关,0<=r<=0.3 低度相关,0.3<=r<=0.8,中度相关,0.8<=r<=1,高度相关
CORREL 函数计算相关系数
回归分析
通过数据的相关性,可以构造确定的回归函数关系
线性回归主要步骤:
- 根据预测目标,确定自变量和因变量
- 绘制散点图,确定回归模型类型
- 估计模型参数,建立回归模型
- 对回归模型进行检测
- 利用回归模型进行预测
简单线性回归
也称一元回归,就是模型中只含有一个自变量:y=a+bx+c,c为 随机误差,即随机因素对因变量所产生的影响
因变量“推广费用”,自变量“销售额”预测第三季度销售额
绘制散点图
【插入】选择【仅带数据标记的散点图】,弹出一张空表,右键【选择数据】,弹出的【选择数据源】对话框中,单击【添加】
设置坐标轴最小值,显示公式与 R
这只是简单的做法,还要使用多个统计指标来检验,如回归模型的拟合优度检验(R²),回归模型的显著性检验(F检验)。回归系数的显著性检验(t检验)等来综合评估回归模型的优劣
标志:勾选
常数为零:表示该模型属于严格的正比例模型,因本例不是,故未勾选
置信度:90%或95%
残差:指观测值与预测值(拟合值)之间的差,也称剩余值
标准残差:(残差-残差的均值)/ 残差的标准差
残差图:以回归模型的自变量为横坐标,以残差为纵坐标绘制的散点图,若绘制的点都在以0为横轴的直线上下随机散布,则表示拟合结果合理
线性拟合图:以回归模型的自变量为横坐标,因变量及预测值为纵坐标绘制散点图
正态概率图:以因变量的百分比排名为横坐标,因变量作为纵坐标绘制散点图
回归统计表
方差分析表
回归系数表
多重线性回归
一个因变量和多个自变量的回归模型为多重线性回归
两个或两个以上因变量的为多元线性回归
多重线性回归模型:
y=a+b1x1+b2x2+...+bnxn+c,c为随机因素对因变量所产生的影响
移动平均
适合短期预测,时间序列预测
Yt=(Xt-1+Xt-2+Xt-3+..+Xt-n)/n
Yt:对下一期的预测值
n:移动平均的时期个数
Xn-1:前期实际值
Xt-2、Xt-3和Xt-n:分别表示前两期、前三期直至前n期的实际值
指数平滑