数据的概率分布以及用python绘制分布图

本文介绍了数据概率分布的基础概念,包括离散变量和连续变量,以及二项分布、泊松分布、均匀分布和正态分布等。同时,讲解了如何使用Python来实现这些常见概率分布的绘图,帮助读者更好地理解和应用统计学知识。
摘要由CSDN通过智能技术生成

一、基础概念

先来看下数据的类型,常见的数据分类方式有三种:第一种是按照数据的结构属性分类,根据数据的存储形式分为结构化数据和非结构化数据,例如数据库的存储对象基本上都是结构化数据,结构化数据是进行数据分析的基本类型;对于非结构化数据,其存在形式多样化,有视频、音频、图片、影像、文档和文本等形式,对于非结构化数据只有将其转化为结构化数据才能进行数分析。第二种按照数据的连续性特征分为离散型数据和连续性数据;第三种根据数据的测量尺度分为:定类数据、定序数据、定距数据和定比数据。

随机变量

每次试验的结果可以用一个变量的数值来表示,这个变量的取值随偶然因素变化,但又遵从一定的概率分布规律。

离散变量

离散型随机变量是在一定区间内变量取值为有限个或可数个。

连续变量

连续性随机变量就是在一定区间内变量取值有无限个,或数值无法一一列举出来。

期望值

期望值是随机试验在同样的机会下重复多次的结果计算出的等同于“期望”的平均值,期望值也成为数学期望或均值,它是指在一个离散性随机变量实验中每次可能结果的概率乘以其结果的总和。

古典概率

又称为事前概率,是指当随机事件中各种可能发生的结果及其出现的次数都可以由演绎或外推法得知,而无需经过任何统计试验即可计算各种可能发生结果的概率。

条件概率

是指事件A在时间B发生的条件下发生的概率。

二、离散变量概率分布

二项分布

在概率论或统计学中,二项分布是n个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败的试验又称为伯努利试验。当n=1时,二项分布就是伯努利分布。

若进行了n次伯努利试验,成功了x次,失败的次数为n-x,设成功的概率为p,失败的概率为q=1-p,发生这种情况的概率用以下公式表示:(二项分布 x~B(n,p))

P ( X = x ) = C n x p x q n − x = n ! x ! ( n − x ) ! p x q n − x P(X=x)=C_{n}^{x}p^{x}q^{n-x}=\frac{n!}{x!(n-x)!}p^{x}q^{n-x} P(X=x)=Cnxpxqnx=x!(nx)!n!pxqnx

二项分布的均值和方差分别为:

μ = ∑ i = 1 n x p ( x ) = n p \mu=\sum_{i=1}^{n}{x}p(x)=np μ=

  • 15
    点赞
  • 129
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值