前言
本节知识要点:推断统计分析——参数估计
目标:
熟知点估计与区间估计
中心极限定理
正态分布及其特性
python实现与分析思路是重点
一、基本概念
1.总体、样本、个体(略)
2.点估计、区间估计
3.推断统计概念
推断统计即用样本的数据去推断总体数量的特征,是以概率形式进行推断的,因为总体往往是未知的。
二、代码实现
1.点估计
使用鸢尾花样本长度的均值来估计总体鸢尾花的长度的情况。因此我们需要求到样本的长度均值。
#点估计
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_iris
import warnings
sns.set(style="darkgrid")
plt.rcParams["font.family"]="SimHei"
plt.rcParams["axes.unicode_minus"]=False
warnings.filterwarnings("ignore")
iris=load_iris()
data=np.concatenate([iris.data,iris.target.reshape(-1,1)],axis=1)
data=pd.DataFrame(data,columns=["sepal_length","sepal_width","petal_length","petal_width","type"])
print(data["petal_length"].mean())
输出:
3.7580000000000027
点估计很准确,但是容易受到随机抽样的影响,导致估计的精确度不高。
2.区间估计
区间估计是指使用一个置信区间和置信度,表示总体参数有多大概率(置信度)会落在该区间(置信区间)。
重要概念:
中心极限定理;
标准差(包括总体和样本的);
标准误差(样本均值的标准差);
正态分布的特性;
代码实现中心极限定理:
#中心极限定理(构建总体——构建抽样样本数组——计算样本均值分布的、标准差——可视化)
#定义总体的数据情况
all_1=np.random.normal(loc=30,scale=80