概率与数理统计
文章平均质量分 73
毛里里求斯
这个作者很懒,什么都没留下…
展开
-
频率论学派(传统数理统计学)和贝叶斯统计学比较
待补充原创 2017-09-14 09:22:49 · 2129 阅读 · 0 评论 -
R2: 相关系数、复相关系数及半偏相关系数之间的联系
开贴举例说明相关系数、复相关系数及半偏相关系数之间的联系。比如,我们要预测学生在高中的表现(学生成绩),一种方法是测量学习速度和难易程度的能力测验来衡量学生的学习能力。那么,假设一个学生已经做了这样的测验,在这个样本中学习能力(X1)与学习成绩(Y)的相关系数是r1=.4,这就表明能力可以解释学习成绩方差的.42=.16,即16%。不过,还有84%的方差尚未得到解释(参考:已解释和未解释的转载 2017-10-30 22:36:56 · 26524 阅读 · 3 评论 -
R2: 已解释和未解释的方差
估计值的方差与总体方差之间的差异就是回归方程对方差的解释率。试举一例,如图 1,身高与体重的回归线显示身高与体重之间呈正相关,Mr. Y身高76英寸体重220磅(图 1中插图.cdr的红点),他与体重平均值的总离差(Y-Y)是220-155=65磅。这个总离差可以被分解为两部分:一部分是Y与回归线之间的离差(Y-Y’),等于30;另一部分是预测值与体重平均值的离差(Y’-Y),等于35。这转载 2017-10-30 22:39:43 · 9814 阅读 · 0 评论 -
衡量数据的离散程度
我们通常使用均值、中位数、众数等统计量来反映数据的集中趋势,但这些统计量无法完全反应数据的特征,即使均值相等的数据集也存在无限种分布的可能,所以需要结合数据的离散程度。常用的可以反映数据离散程度的统计量如下:极差(Range) 极差也叫全距,指数据集中的最大值与最小值之差: 极差计算比较简单,能从一定程度上反映数据集的离散情况,但因为最大值和最小值都取的是极端,而没有考虑中间其转载 2017-10-16 13:04:01 · 27052 阅读 · 1 评论 -
难以解释的数据异常
难以解释的数据异常转载自:http://webdataanalysis.net/personal-view/unexplained-anomaly/ 在分析数据的时候,总有那些一些数据异常无法找到适当的理由进行合理解释,也许可以换个角度来看待这些异常。为什么明明数据发生较大的起伏波动,我们绞尽脑汁还是无法找到合理的原因,这些到底是怎么样的异常,是不是存在一些共性,或者这些异常是不转载 2017-10-16 13:11:53 · 403 阅读 · 0 评论 -
R与概率分布
原创 2017-10-16 13:51:01 · 698 阅读 · 0 评论 -
正态分布/卡方分布/F分布/T分布
正态分布:正态分布(Normal distribution)又名高斯分布(Gaussiandistribution),若随机变量X服从一个数学期望为μ、方差为σ^2的高斯分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。我们通常所说的标准正态分布是μ = 0,σ = 1的正态分布。当μ=0,σ=1时,正态分布就成为标准正态分布N(0,1转载 2017-10-25 00:00:33 · 33256 阅读 · 2 评论 -
统计学假设检验中 p 值的含义具体是什么?
一、作者:李可乐链接:https://www.zhihu.com/question/23149768/answer/23745483来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。就从打赌开始说起。一日闲机无聊,我与楼主会饮于望胡楼。饮罢,两人都不想主动买单,于是我提议以置硬币来决定谁买单。规则是这样的:有二十个一元硬币,谁的菊花朝上多转载 2017-10-25 09:31:34 · 21807 阅读 · 0 评论 -
T检验、F检验和统计学意义(P值或sig值)
1.T检验和F检验的由来 一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定。 通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布(probability distribution)进行比较,我们可以知道在多少%的机会下会得到目前的结果。倘若经比较后发现,出现这结果的机率很少,转载 2017-10-25 10:01:14 · 21907 阅读 · 2 评论 -
泊松分布的来源—公式推导—应用
转载请注明:http://blog.csdn.net/ningyaliuhebei/article/details/46409215一。泊松分布由二项分布引出(二者都是离散型随机变量)首先必须由二项分布引出:如果做一件事情成功的概率是 p 的话,那么独立尝试做这件事情 n 次,成功次数的分布就符合二项分布。展开来说,在做的 n 次中,成功次数有可能是 0 次、1 次 …… n次。成功 i 次的概率...转载 2018-03-14 14:38:21 · 3575 阅读 · 0 评论 -
三大统计相关系数:Pearson、Spearman秩相关系数、kendall等级相关系数
统计相关系数简介 由于使用的统计相关系数比较频繁,所以这里就利用几篇文章简单介绍一下这些系数。 相关系数:考察两个事物(在数据里我们称之为变量)之间的相关程度。 如果有两个变量:X、Y,最终计算出的相关系数的含义可以有如下理解:(1)、当相关系数为0时,X和Y两变量无关系。(2)、当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1转载 2017-10-30 13:48:03 · 130617 阅读 · 3 评论 -
[偏相关分析]偏相关系数计算及假设检验
1、相关分析通过计算两个变量之间的相关系数,分析变量间线性相关的程度,在多元相关分析中,由于受到其他变量的影响,皮尔森相关系数只能从表面上反映两个变量相关的性质,往往不能真实地反映变量之间的线性相关程度,甚至会给人造成相关的假象,因此,在某些场合,简单的皮尔森相关系数并不是刻画相关关系的本质统计量。2、当其他变量被固定住,即将他们控制起来后,给定的任意两个变量之间的相关系数叫偏相关系数,偏相关转载 2017-10-30 10:54:41 · 52891 阅读 · 7 评论 -
读书笔记∣商务与经济统计Ch.1-3
读书笔记:商务与经济统计原创 2017-09-09 21:02:43 · 2305 阅读 · 0 评论 -
你需知道的MFI:mean, Median,Mode及Geometric Mean 之比较
MFI也许是最经常问到的一个问题。你知道什么时候用Mean,Median, Mode 及Geometry Mean吗?我们来就其数学定义及流式里的应用做一个简单的介绍:Mean(平均数):数学定义: 一组数据的总和除以这组数据个数所得到流式应用:用于线性正态分布Geometry Mean(几何平均数): 数学定义:n个变量值连乘积的n次方根。流式转载 2017-09-14 23:11:40 · 22300 阅读 · 0 评论 -
统计学里“P”的故事:蚊子、皇帝的新衣和不育的风流才子
P值转载 2017-09-09 12:54:19 · 632 阅读 · 0 评论 -
概率分布与R语言
概率分布与R语言原创 2017-09-11 15:28:28 · 14932 阅读 · 0 评论 -
读书笔记∣概率论沉思录 01
读书笔记:概率论沉思录原创 2017-09-09 21:09:49 · 6993 阅读 · 0 评论 -
从概率论到统计学
我们可能想了解某一地区的人均收入状况,但不可能去调查每个家庭的收入,只能抽取一部分家庭作为样本,获得样本家庭的收入数据,然后用样本平均收入去推测全部家庭的人均收入,当然我们也可能去推断所有家庭收入的方差或者低收入家庭的比重等等。(1)首先,总体参数可以根据样本统计量来推断根据样本均值推断总体均值根据样本方差来推断总体方差根据样本比例来推断总体比例(2)但是,通过样本统计量来推断原创 2017-09-11 16:54:33 · 1694 阅读 · 0 评论 -
[秩相关] Spearman秩相关系数计算及假设检验
首先说明秩相关系数还有其他类型,比如kendal秩相关系数。使用Pearson线性相关系数有2个局限:必须假设数据是成对地从正态分布中取得的。数据至少在逻辑范围内是等距的。对于更一般的情况有其他的一些解决方案,Spearman秩相关系数就是其中一种。Spearman秩相关系数是一种无参数(与分布无关)检验方法,用于度量变量之间联系的强弱。在没有重复数据的情况下,如果一个变量是另外一转载 2017-10-30 09:59:50 · 27310 阅读 · 5 评论 -
[小结] 二元变量相关性分析
1、服从正态分布的两连续变量,若有一份随机样本,可绘制散点,发现有直线趋势,进而计算皮尔森相关系数,以描述两变量的线性关系;2、若不满足正态分布的两连续变量,发现有直线趋势,进而计算spearman秩相关系数,以描述两变量的相关关系。3、对两个反映属性的分类变量,若有一份随机样本,可做交叉分类的频数表,利用独立性卡方检验和列联表系数来描述关联性。4、相关系数和列联系数的计算都是基于一份转载 2017-10-30 10:41:59 · 7881 阅读 · 0 评论 -
[线性相关] 皮尔森相关系数的计算及假设检验
皮尔森相关系数,又称积差相关系数、积矩相关系数,可以看做将两组数据首先做Z分数处理之后, 然后两组数据的乘积和除以样本数Z分数一般代表正态分布中, 数据偏离中心点的距离.等于变量减掉平均数再除以标准差。按照大学的线性数学水平来理解, 它比较复杂一点,可以看做是两组数据的向量夹角的余弦。从以上解释,也可以理解皮尔逊相关的约束条件:1、两个变量间有线性关系2、变量是连续变量转载 2017-10-30 09:05:51 · 40360 阅读 · 3 评论