统计学(一):定量资料的统计描述

1.整体性统计描述

  • summary():输出变量的最大值、最小值、四分位数、均值
rm(list = ls())
mtcars
summary(mtcars[,3:7])
  • apply()/sapply():输出变量的自定义描述量
state = function(x){
  x = x[!is.na(x)]
  m = mean(x)
  n = length(x)
  s = sd(x)
  skew = sum((x-m)^3/s^3)/n
  kurt = sum((x-m)^4/s^4)/n-3
  return(c(n = n,mean = m,s = s, skew = skew, kurt = kurt))
}
apply(mtcars[,3:7], 2, state)
sapply(mtcars[,3:7], state)
  • describe(): 比较常用的统计包,描述量很多
library(psych)
describe(mtcars[,3:7])

2.分组计算描述性统计量

  • describeBy():输出一个/多个类别型变量分组后describle描述量
library(psych)
describeBy(mtcars$mpg,list(mtcars$cyl,mtcars$am))
  • summaryBy():输出一个/多个类别型变量分组后的单个/多个描述量
library(doBy)
head(mtcars)
data_describe = summaryBy( mpg+hp+wt~cyl+am,
               mtcars,FUN = state) # 公式左边是连续变量,右边是类别变量,FUN参数必须存在
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
SPC培训教程 一、持续改进及统计过程控制概述 二、SPC基础 三、计数型数据控制图 SPC培训教程全文共50页,当前为第1页。 产品质量波动及其统计描述 产品质量特性 定性 定量 连续 离散 计量值 计数值 计件值 计数值 SPC培训教程全文共50页,当前为第2页。 变 异 误差 =X-X0 偶然性误差:误差大小和方向的变化是随机的。 系统性误差:误差大小和方向的变化保持不变或按一定规律变化。 过程控制中常用精度这个概念来反映质量的波动(变异)程度。 SPC培训教程全文共50页,当前为第3页。 精 度 精度又可分为: 准确度(Accuracy): 反映系统误差的影响程度; 精密度(Precision): 反映偶然误差的影响程度; 精确度(Uncertainty): 反映系统误差和偶然误差综合的影响程度 SPC培训教程全文共50页,当前为第4页。 精度的概念 准确度好 精密度好 系统误差小 偶然误差小 准确度差 精密度高 系统误差大 偶然误差小 准确度高 精密度差 系统误差小 偶然误差大 准确度差 精密度差 系统误差大 偶然误差大 SPC培训教程全文共50页,当前为第5页。 持续改进及统计过程控制概述 预防与检测 过程控制系统 变差:普通原因及特殊原因 局部措施和对系统采取措施 过程控制和过程能力 过程改进循环及过程控制 控制图:过程控制工具 控制图的益处 SPC培训教程全文共50页,当前为第6页。 持续改进及统计过程控制概述之一检测与预防 过程控制的需要 检测—容忍浪费 预防—避免浪费 SPC培训教程全文共50页,当前为第7页。 持续改进及统计过程控制概述之二过程控制系统 我们工作 的方式 资源的融合 产品 或 服务 顾客 识别不断变化 的需求和期望 顾客的声音 人 设备 材料 方法 环境 输入 过程/系统 输出 过程的声音 统计方法 有反馈的过程控制系统模型 SPC培训教程全文共50页,当前为第8页。 持续改进及统计过程控制概述之三变差的普通原因及特殊原因 SPC培训教程全文共50页,当前为第9页。 SPC基础 SPC (Statistical Process Control) 统计过程控制:利用统计技术对过程中的各个阶段进行监控,从而得到保证产品质量的目的。 二十世纪二十年代美国休哈特(W.A.Shewhart)首创过程控制(Process Control)理论极其监控过程的工具—控制图(Control Chart)形成SPC的基础,后扩展到任何可以应用的数理统计方法。 控制图(Control Chart):对过程质量特性记录评估,以监察过程是否处于受控状态的一种统计方法图。 1924年5月6日休哈特提出的不合格样品率P控制图为世界第一张控制图。 SPC培训教程全文共50页,当前为第10页。 产品质量的统计观点一 产品质量具有变异性 影响产品质量的因素有6M Man: 人 Machine: 机 Material: 料 Method: 法 Mother-nature: 环 Measurement: 测 无论人类社会如何进步发展,产品质量不可能保持绝对恒定,一定具有变异性。 SPC培训教程全文共50页,当前为第11页。 产品质量的统计观点二 产品质量的变异具有统计规律性 确定性现象,确定性规律:在一定条件下,必然发生或不可能发生的事情。如一个大气压(760mm汞柱)下,H2O的变化规律。 温度 0 固体状态 温度 0 < t < 100 液体状态 温度 100 气体状态 随机现象,统计规律:在一定条件下事件可能发生也可能不发生的现象。如我们无法预知内存电性能测试合格率大于99%,但大量统计数据证明有99%的可能性大于99%。 SPC培训教程全文共50页,当前为第12页。 正态分布 分布(distribution):用来描述随机现象的统计规律,说明两个问题:变异的幅度有多大;出现这么大幅度的概率。 计量特性值:如PCB金手指厚度、重量或时间等连续性数据,最常见的是正态分布(normal distribution)。 计件特性值:如内存合格/不合格两种离散性数据,最常见的是二项分布(binomial distribution)。 计点特性值:如每条内存上少锡点数等离散性数据,最常见的是泊松分布(Poisson distribution)。 由于二项分布和泊松分布数据数理统计理论较复杂,以下讨论以正态分布为例。 SPC培训教程全文共50页,当前为第13页。 正态分布 直方图(histogram):在横轴上以样本数据每组对应的组距等距离线段为底,纵轴表示样本数据落入相应直方组的频数的n个矩形所组成的图形。如100条PCB金手指厚度,标准50 3.94。 用面积表示频率或频数 统计学显示计量特性值分布特点是:中间高,两头低,左右对称
数据质量分析 缺失值 数据集中某个或某些属性的值是不完全的 处理方法:删除数据、数据补齐(统计补充,统一补充)、不处理 异常值分析 异常值定义 数据服从正态分布 ,一组测定值中与平均值的偏差超过两倍标准差的测定值,与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。 箱型图分析 箱型图提供了一个识别异常值的标准,即大于或小于箱型图设定的上下界的数值即为异常值 3倍标准差原则 根据正态分布的定义可知,距离平均值3δ之外的概率为 P("x-μ">3δ) <= 0.003 ,这属于极小概率事件,在默认情况下我们可以认定,距离超过平均值3δ的样本是不存在的。 因此,当样本距离平均值大于3δ,则认定该样本为异常值。 简单统计量分析 对属性值进行一个描述性的统计,从而查看哪些值是不合理的 处理方法 1.删除含有异常值的记录 2.将异常值视为缺失值,交给缺失值处理方法来处理 3.用平均值来修正 4.不处理 不一致值 这里不一致可能是不同属性值之间的不一致,比如城市和对应的邮编,也可能是同属性的单位不一致,或数据类型不一致等等。 这个问题大多数情况还是可以批量解决的,像数据类型转换,字符串的规范化,遇到城市和邮编的这种状况也可以用对应的邮编列表来更正 数据分析中的数据探索全文共4页,当前为第2页。数据分析中的数据探索全文共4页,当前为第1页。重复值 数据分析中的数据探索全文共4页,当前为第2页。 数据分析中的数据探索全文共4页,当前为第1页。 重复这个问题也是需要对数据做一个初步的判断,有些重复数据是无用的,需要查重并删除,但是有些情况,比如主题模型当中,需要统计词频,此时不但不能去重,而且相同词根的词也要做出处理,使其在统计时叠加,否则主题概率会出现问题。 特殊符号 具体分析 数据特征分析 数据分布分析 定义 分布分析用来解释数据的分布特征和分布类型,显示其分布情况。分布分析主要分为两种:对定量数据的分布分析和对定性数据的分布分析。 步骤 1:求极差 2:决定组距与组数。3:决定分点。4:得到频率分布表。5:绘制频率分布直方图 对比分析 定义 对比分析通常是把两个相互关系的指标数据进行比较,运用数字展示和说明研究对象规模的大小,水平的高低,速度的快 ,以及各种关系是否协调。 分类 对比分析可分为同比、环比和定基比分析,三者均用百分数和倍数表示。 统计量分析 方法 用统计学指标对定量数据进行描述性分析,例如均值,中位数,众数;极差,标准差,四分位数间距等。 周期性分析 数据分析中的数据探索全文共4页,当前为第4页。数据分析中的数据探索全文共4页,当前为第3页。定义 数据分析中的数据探索全文共4页,当前为第4页。 数据分析中的数据探索全文共4页,当前为第3页。 周期性分析是探索某个变量是否随着时间变化而呈现出某种周期变化趋势。时间尺度相对较长的周期性趋势有年度周期性趋势、季节性周期性趋势、相对较短的有季度周期性趋势、周度周期性趋势、甚至更短的天、小时周期性趋势。 贡献度分析 贡献度分析又称为帕累托分析,他的原理是帕累托法则又称20/80定律,为什么称为20/80定律,因为对于一个公司来说,80%的利润来自20%最畅销的产品,而其他80%的产品只产生了20%的利润,表示把相同的投入成本放在不同的对象就会产生不同的效益。 相关性分析 散点图矩阵 当欲同时考察多个变量间的相关关系时,若一一绘制它们间的简单散点图,十分麻烦。此时可利用散点图矩阵来同时绘制各自变量间的散点图,这样可以快速发现多个变量间的主要相关性 散点图 数据点在直角坐标系平面上的分布图,散点图表示因变量随自变量而变化的大致趋势 简单相关分析 pearson相关系数 Person线性相关系数要求连续变量的取值服从正态分布 Spearman秩相关系数 不服从正态分布的变量,分类或等级变量之间的关联性可采用Spearman秩相关系数 总结上述两者: 只要两个变量具有严格单调的函数关系,那么他们一定是完全Spearman相关,Person相关只有在变量具有线性关系时才完全相关的。在正态分布下Person相关系数和Spearman秩相关系数在效率上面是等价的,但对于连续测量的数据,更适合Person相关系数进行分析。 判定系数 判定系数是相关系数的平方,r^2 来表示,一般用来衡量回归方程对y的解释程度,它的取值范围是0<=r^2<=1,当它越接近1表明x与y的相关性越高,接近0的话表示两个变量之间几乎没有相关性。 偏相关分析 在多要素所构成的系统中,当研究某一个要素对另一个要素的影响或相关程度时,把其他要素的影响视作常数(保持不变),即暂时不考虑其他要素影响,单独研究两个要素之间的相互关系的密切程度,所得数值结果为偏相关系数 数据分析中的数据探索
目  录    第1篇 统计学基础知识与SAS软件应用技巧 第1章 绪论  第1节 统计学的理论基础和研究对象  第2节 统计学的任务和作用  第3节 统计学的主要内容  第4节 学习统计方法的捷径  第5节 统计资料的类型  第6节 数据结构与统计方法的匹配  第7节 几个重要的统计名词 第2章 试验设计入门  第1节 试验设计的意义、要素、原则和原理  第2节 试验设计原则的实施办法  第3节 试验设计类型的概述 第3章 统计描述  第1节 统计表  第2节 统计图  第3节 平均指标──度量定量指标的平均水平(或集中趋势)  第4节 变异指标──度量定量指标的变异程度(或离散趋势)  第5节 随机变量及其概率  第6节 平均指标与变异指标的结合使用  第7节 分位数──描述偏态资料的情况和离散趋势  第8节 正态性检验  第9节 相对数──对定性资料进行统计描述 第4章 SAS软件应用入门  第1节 SAS软件简介  第2节 应用SAS的捷径  第3节 使用SAS必须了解的几个基本概念  第4节 使用SAS必须掌握的几组重要命令  第5节 实际运行SAS的步骤 第5章 SAS实用程序编写技巧  第1节 数据步流程  第2节 创建数据集的途径  第3节 建立数据集的技巧 第6章 用SAS软件实现简单的统计分析  第1节 用SAS实现单变量统计分析  第2节 用SAS语言编程求小样本率的置信区间 第7章 用SAS/GRAPH模块绘制常用统计图的方法  第1节 条图、圆图和直方图  第2节 散布图、普通线图和半对数线图    第2篇 试验设计与定量资料统计分析 第1章 基本概念与方法的概述  第1节 假设检验中有关的基本概念  第2节 定量资料统计分析方法的概述 第2章 单组、配对和成组设计及其资料统计分析  第1节 单组设计及其统计分析  第2节 配对设计及其统计分析  第3节 成组设计及其统计分析  第4节 本章几种试验设计类型的鉴别  第5节 统计资料的类型  第6节 数据结构与统计方法的匹配  第7节 几个重要的统计名词 第3章 误差固定的方差分析设计类型及其定量资料统计分析  第1节 方差分析的应用场合、基本思想和前提条件  第2节 单因素K(K≥3)水平设计及其资料统计分析  第3节 配伍组设计及其资料统计分析  第4节 交叉设计及其资料统计分析  第5节 拉丁方设计及其资料统计分析  第6节 不完全拉丁方设计及其资料统计分析  第7节 希腊拉丁方设计及其资料统计分析  第8节 析因设计及其资料统计分析  第9节 含区组因素的析因设计及其资料统计分析  第10节 正交设计及其资料统计分析 第4章 误差变动的方差分析设计类型及其定量资料统计分析  第1节 平衡不完全区组设计及其资料统计分析  第2节 单因素K(K≥3)水平设计及其资料统计分析  第3节 系统分组(或嵌套)设计及其资料统计分析  第4节 裂区(或分割)设计及其资料统计分析  第5节 具有重复测量设计及其资料统计分析 第5章 多个均数或均值向量之间的多重比较  第1节 有关的名词概念和符号的含义  第2节 具有显著性的单因素各水平之间的多重比较  第3节 具有显著性的交互作用项各水平之间的多重比较    第3篇 试验设计与定性资料统计分析 第1章 2×2表资料的假设检验  第1节 试验设计及资料的表达格式  第2节 分析2×2表资料的常用公式及应用条件  第3节 应用举例  第4节 对列研究和病例─对照研究资料的分析 第2章 R×C表资料统计分析  第1节 R×C表资料的分类  第2节 双向无序R×C表资料统计分析  第3节 单向有序R×C表资料统计分析  第4节 双向有序且属性不同的R×C表资料统计分析  第5节 双向有序且属性相同的R×C表资料统计分析  第6节 R×C表资料的分割  第7节 精确分割卡方值及其自由度的方法 第3章 高维列联表资料统计分析  第1节 用合并法把3维表压缩成2维表  第2节 定性资料的对数线性模型分析  第3节 定性资料的logistic回归分析    第4篇 试验设计与回归分析 第1章 回归分析的种类与简单回归分析  第1节 回归分析的任务和种类  第2节 直线回归与相关分析的概念和要点  第3节 直线回归与相关分析的计算和应用  第4节 具有重复试验数据的直线回归分析  第5节 加权直线回归的应用──半数效量的估计  第6节 可直线化的简单曲线拟合  第7节 一般多项式曲线拟合  第8节 非线性曲线拟合  第9节 再用1个实例复习曲线拟合的全过程 第2章 多元线性回归分析  第1节 多元线性回归分析的概述  第2节 应用举例  第3节 变量筛选方法  第4节 回归诊断  第5节 用各种筛选变量方法编程的技巧  第6节 与回归分析有关的重要统计术语和统计量的注解 第3章 协方差分析  第1节 协方差分析的概述  第2节 一元协方差分析应用举例  第3节 多元协方差分析应用举例 第4章 直接试验设计与回归分析  第1节 回归分析试验设计方法的发展  第2节 各因素水平数相同时的直接试验设计  第3节 各因素水平数不同时的直接试验设计  第4节 关于直接试验设计的几点说明与解释  第5节 直接试验设计的SAS源程序  第6节 直接试验设计SAS程序的运行  第7节 应用举例  第8节 设计矩阵均匀性函数简介    第5篇  生 存 分 析析 第1章 基本概念  第1节 生存资料的特点  第2节 生存时间函数  第3节 生存分析方法的分类 第2章 生存资料的非参数统计方法  第1节 统计描述与非参数分析概述  第2节 用LIFETEST过程实现统计计算  第3节 生存资料非参数统计方法中的有关计算公式 第3章 COX模型回归分析  第1节 COX回归模型(半参数回归模型)  第2节 COX模型回归分析应用举例 第4章 参数模型回归分析  第1节 参数回归模型  第2节 参数模型回归分析应用举例    第6篇 多 元 统 计 分 析 第1章 主成分分析  第1节 基本概念与数据结构  第2节 主成分的表达式与性质  第3节 用PRINCOMP过程实现主成分分析  第4节 合成资料的主成分分析 第2章 因子分析  第1节 基本概念  第2节 因子模型  第3节 因子分析的基本定理与任务  第4节 用FACTOR过程实现因子分析 第3章 对应分析  第1节 方法的概述  第2节 对应分析中的变量变换方法  第3节 用CORRESP过程实现对应分析 第4章 聚类分析  第1节 方法的概述  第2节 用VARCLUS过程实现变量聚类分析  第3节 用CLUSTER过程实现样品聚类分析  第4节 用FASTCLUS过程实现大样本样品聚类分析  第5节 用ACECLUS过程对需作样品聚类分析的资料进行预处理  第6节 用SAS/GRAPH模块绘制样品聚类图的SAS程序 第5章 判别分析  第1节 离散(定性)资料的判别分析  第2节 定量资料的逐步判别分析(考虑变量筛选)  第3节 一般判别分析(不考虑变量筛选) 第6章 典型相关分析  第1节 方法的概述  第2节 用CANCORR过程实现典型相关分析         全书附录 附录1 各篇练习题及参考答案   第1篇练习题   第2篇练习题   第3篇练习题   第4篇练习题   第5篇练习题   第6篇练习题   第1篇参考答案   第2篇参考答案   第3篇参考答案   第4篇参考答案   第5篇参考答案   第6篇参考答案 附录2 统计用表及产生这些表所需的SAS程序   2.1 统计用表   表2.1 t、r、rs、χ2临界值   表2.2 F临界值(方差齐性检验用,双侧概率为0.05)( )   表2.3 F临界值(方差分析用,单侧概率为0.05)( )   表2.4 F临界值(方差分析用,单侧概率为0.01)( )   2.2 产生上述表所需的SAS程序   产生t临界值表所需的SAS程序━TLJZ.PRG   产生χ2临界值表所需的SAS程序━KFLJZ.PRG   产生F临界值表所需的SAS程序━FLJZ.PRG 附录3 估计样本含量的常用公式 附录4 三个常用的离散型随机变量的概率 附录5 与SAS软件有关的内容   5.1 SAS表达式简介   5.2 SAS函数简介   5.3 SAS语句简介   5.4 SAS过程简介   5.5 SAS命令简介   5.6 SAS中宏知识简介 附录6 中英文对照索引 附录7 参考文献

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值