机器学习中的概率分布（一）

最新推荐文章于 2024-07-14 10:56:22 发布

KerryMo

最新推荐文章于 2024-07-14 10:56:22 发布

阅读量596

点赞数

分类专栏： python之时间序列预测统计学习 Python 文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/yaoxy/article/details/125554892

版权

Python 同时被 3 个专栏收录

19 篇文章 0 订阅

订阅专栏

统计学习

7 篇文章 0 订阅

订阅专栏

python之时间序列预测

1 篇文章 0 订阅

订阅专栏

设有一个随机变量X, 其期望存在为E(X)，方差存在为D(X) 有结论：

1、均匀分布

X~U(a,b)

方差： $DX=(b-a)^2/12$

期望： $EX=(a+b)/2$

# 均匀分布
import numpy as np
from matplotlib import pyplot as plt

def unifrom(x,a,b):
    y=[1/(b-a) if a<= val and val <= b
               else 0 for val in x]
    return x, y, np.mean(y), np.std(y)

x = np.arange(-100,100)
for ls in [(-50,50),(10,20)]:
    a,b = ls[0], ls[1]
    x,y,u,s = unifrom(x,a,b)
    plt.plot(x, y, label =r'$\mu=%.2f,\ \sigma=%.2f$' %(u,s))

plt.legend()
plt.savefig('graph/uniform.png')
plt.show()

2、伯努利分布（离散）

伯努利分布又名0-1分布或者两点分布，是一个离散型概率分布。
若伯努利试验成功，则伯努利随机变量取值为1。
若伯努利试验失败，则伯努利随机变量取值为0。
记其成功概率为p(0<=p<=1)，失败概率为q=1-p。
伯努利分布是一个离散型机率分布，是N=1时二项分布的特殊情况。
EX= p,DX=p(1-p)。

"""
    Bernoulli distribution
    https://en.wikipedia.org/wiki/Bernoulli_distribution
"""
import random
import numpy as np
from matplotlib import pyplot as plt

def bernoulli(p,k):
    return p if k else 1-p

n = 100 #试验次数
p = 0.4
x = np.arange(n)
y = []
for _ in range(n):
    pick = bernoulli(p,k=bool(random.getrandbits(1)))
    y.append(pick)

u,s = np.mean(y), np.std(y)
plt.scatter(x, y, label=r'$\mu=%.2f,\ \sigma=%.2f$' % (u, s))
plt.legend()
plt.show()

3、二项分布（离散）

参数为 n 和 p 的二项分布是一系列 n 个独立实验中成功次数的离散概率分布。
二项式分布是指通过指定要提前挑选的数量而考虑先验概率的分布。

"""
    Binomial distribution
    Code by Tae-Hwan Hung(@graykode)
    https://en.wikipedia.org/wiki/Binomial_distribution
"""
import numpy as np
from matplotlib import pyplot as plt
import operator as op
from functools import reduce

def const(n,k):
    k = min(k, n-k)
    number = reduce(op.mul, range(n,n-k, -1),1)
    denom = reduce(op.mul, range(1,k+1),1)
    return number / denom

def binomial(n,p):
    q = 1-p
    y = [const(n,k) * (p ** k) * (q ** (n-k)) for k in range(n)]
    return y, np.mean(y), np.std(y)

for ls in [(0.5, 20), (0.7, 40), (0.5, 40)]:
    p, number = ls[0], ls[1]
    x = np.arange(number)
    y, u, s = binomial(number, p)
    plt.scatter(x, y, label = r'$\mu=%.2f,\ \sigma=%.2f$' % (u,s))

plt.legend()
plt.show()

4、多伯努利分布，分类分布（离散）

A categorical distribution is a discrete probability distribution whose sample space is the set of k individually identified items. It is the generalization of the Bernoulli distribution for a categorical random variable.

将一个小球放入两个桶，记变量x 为第一个桶里面有的小球个数，那么只有 0 个或者 1 个，所以是服从伯努利分布；
将 n 个小球放入两个桶，记变量 x 为第一个桶里面的小球个数，那么最少可能有 0 个，最多可能有 n 个，所以服从二项分布；
将一个小球放入 k 个桶，记变量 x 为 k 个桶内的小球个数，所以是一个向量，并且是One-hot的形式，因为这个小球只能在一个桶里面，所以是服从Categorical分布；
将 n 个小球放入 k 个桶，记变量 x 为 k 个桶内的小球个数，是一个向量，并且向量元素的和为 n，所以是服从多项分布。
碎片化学习之数学（二）：Categorical Distribution - 知乎这次介绍一下 Categorical Distribution，中文可以翻译为类别分布、范畴分布。接下来主要介绍一些Categorical Distribution和一些类似分布的区别，并主要介绍一下Gumbel Distribution与它的关系。先给出有着紧密联…https://zhuanlan.zhihu.com/p/59550457

"""
    Code by Tae-Hwan Hung(@graykode)
    https://en.wikipedia.org/wiki/Categorical_distribution
    Categorical_distribution:3-Class Example
"""
import random
import numpy as np
from matplotlib import pyplot as plt

def categorical(p,k):
    return p[k]

number = 100
p = [0.2, 0.1, 0.7]
x = np.arange(number)
y = []
for _ in range(number):
    pick = categorical(p, k=random.randint(0,len(p)-1))
    y.append(pick)

u,s = np.mean(y), np.std(y)
plt.scatter(x, y, label=r'$\mu=%.2f,\ \sigma=%.2f$' % (u, s))
plt.legend()
plt.show()