stats-

最新推荐文章于 2024-09-28 16:21:00 发布

xueshijun666

最新推荐文章于 2024-09-28 16:21:00 发布

阅读量1.6k

点赞数

文章标签：数学建模 python 开发语言

本文链接：https://blog.csdn.net/xueshijun666/article/details/130980041

版权

---------------------------------------------
t检验
---------------------------------------------
单样本t检验(One Sample t-test)
单样本t检验，需要满足四个条件：
   条件1：观察变量为连续变量。
   条件2：观察变量相互独立。
   条件3：观察变量不存在显著的异常值。
   条件4：观察变量为(近似)正态分布。

独立样本t检验(Independent Samples t-test)
独立样本t检验，需要满足六个条件：
   条件1：观察变量为连续变量。
   条件2：观察变量相互独立。
   条件3：观察变量分为2组。
   条件4：观察变量不存在显著的异常值。
   条件5：各组观察变量为正态(或近似正态)分布。
   条件6：两组观察变量的方差相等。

   当两样本均来自正态总体，但样本含量较小，如n1≤60或/和n2≤60时，要根据两总体方差是否相等而采用不同检验方法。
   (一) 总体方差相等的t检验
   (二) 总体方差不等的近似t检验
       近似t检验有以下三种方法可供选择：Cochran & Cox法、Satterthwaite法和Welch法。



配对样本t检验(Paired Samples t-test)
配对样本t检验需要满足五个条件：
   条件1：观察变量为连续变量。
   条件2：观察变量为配对设计。
   条件3：观察变量可分为2组。
   条件4：观察变量不存在显著的异常值。
   条件5：两个配对组别间观察变量的差值服从正态(或近似正态)分布。

---------------------------------------------
秩和检验
---------------------------------------------
单样本Wilcoxon符号秩检验
独立样本Wilcoxon秩和检验
配对样本Wilcoxon符号秩检验

---------------------------------------------
方差分析
---------------------------------------------
单因素方差分析(One-way ANOVA)
单因素方差分析，需要满足6个条件：
   条件1：观察变量为连续变量。
   条件2：观测值相互独立。
   条件3：观测值可分为多组(≥2)。
   条件4：观察变量不存在显著的异常值。
   条件5：各组观测值为正态(或近似正态)分布。
   条件6：多组观测值的整体方差相等。

"""
   df2.loc[df['group']==1,'group']='A'
   df2.loc[df['group']==2,'group']='B'
   df2.loc[df['group']==3,'group']='C'
   --------------------------------------------------------
   1. 条件4判断(异常值判断)
   plt.boxplot([df2.loc[df2.loc[:,'group']=='A','血红蛋白'],
               df2.loc[df2.loc[:,'group']=='B','血红蛋白'],
               df2.loc[df2.loc[:,'group']=='C','血红蛋白']], labels=["A","B","C"])
   2. 条件5判断(正态性检验)
   ## 分组绘制Q-Q图##
   import statsmodels.api as sm
   sm.qqplot(df2.loc[df2.loc[:,'group']=='A','血红蛋白'], line='s')
   sm.qqplot(df2.loc[df2.loc[:,'group']=='B','血红蛋白'], line='s')
   sm.qqplot(df2.loc[df2.loc[:,'group']=='C','血红蛋白'], line='s')
   ##正态性检验##
   from scipy import stats
   shapiro_test1 = stats.shapiro(df2.loc[df2.loc[:,'group']=='A','血红蛋白'])
   shapiro_test2 = stats.shapiro(df2.loc[df2.loc[:,'group']=='B','血红蛋白'])
   shapiro_test3 = stats.shapiro(df2.loc[df2.loc[:,'group']=='C','血红蛋白'])
   3. 条件6判断(方差齐性检验)
   ##levene法方差齐性检验##
   group0 = df2.loc[df2.loc[:,'group']=='A']['血红蛋白'] #选取第一组数据
   group1 = df2.loc[df2.loc[:,'group']=='B']['血红蛋白'] #选取第二组数据
   group2 = df2.loc[df2.loc[:,'group']=='C']['血红蛋白'] #选取第二组数据
   leveneTestRes = stats.levene(group0, group1, group2, center='mean') #levene法齐性检验
   print(leveneTestRes) #显示检验结果
   3组的标准差存在差异，但是否有统计学意义还需进一步判断。
   Levene检验结果(图9)显示，F=2.6102，P=0.08019＜0.1，提示3组数据的方差不齐，不满足条件6。
   --------------------------------------------------------
   ##单因素方差分析
   from scipy import stats
   stats.f_oneway(df2.loc[df2.loc[:,'group']=='A']['血红蛋白'],df2.loc[df2.loc[:,'group']=='B']['血红蛋白'],df2.loc[df2.loc[:,'group']=='C']['血红蛋白'])
   ##校正单因素方差分析(Welch’s)
   import pingouin as pg
   pg.welch_anova(dv='血红蛋白', between='group', data=df2)
   --------------------------------------------------------
   事后检验(两两比较)
   #注：当不满足方差齐性时采用“Games-Howell”法进行事后检验
   pg.pairwise_gameshowell(dv='血红蛋白', between='group', data=df2)

"""

   """
   多重比较一般分为事前检验(Prior tests)和事后检验(Post hoc tests)。
   事前检验是指在数据收集之前便决定了要通过多重比较来考察多个组与某个特定组之间的差别，多根据专业意义设定比较的策略。
   如果是事前检验，不论整体分析的结果如何，均可进行比较，并且一般不需要对检验水准进行太多修正。
   事后检验只有在方差分析得到有统计学意义的结果后才进行，是一种探索性分析。
   对于事先未计划的多重比较(即事后检验)，各组间的差异只是一种提示，要确认这种差异最好重新设计实验。

事前检验(Prior tests)最常用的两两比较方法有LSD法和Dunnett-t检验。
事后检验(Post hoc tests)最常用的方法有SNK法、Duncan法、Turkey’b和Scheffe法。

LSD法是最灵敏的方法，因此也容易犯假阳性错误。Dunnett-t法多用于多个实验组与一个对照组比较，此时应指定对照组，多用于确证性研究，少用于探索性研究。Bonferroni法是对LSD法的严格校正，结果更加保守，但当组数较多时，较难发现组间差异，因此如果各组例数相差不大且组数不多时可采用。当不满足方差齐性时常采用“Games-Howell”法进行事后检验。
"""

协方差分析(Analysis of Covariance，ANCOVA)
将线性回归分析与方差分析结合起来的一种统计分析方法，用于比较两组或多组均数之间的差异时，控制对因变量有影响的混杂因素(即协变量covariate)的一种方法。协变量可以有一个、两个或多个，分析方法略有不同，但其解决问题的基本思想相同。
协方差分析，需要满足9个条件：
   条件1：观察变量为连续变量。
   条件2：观测值相互独立。
   条件3：观察变量不存在显著的异常值。
   条件4：自变量存在2个或多个分组。
   条件5：协变量是连续变量。
   条件6：各组内因变量的残差服从正态(或近似正态)分布。
   条件7：组间因变量的残差方差齐。
   条件8：各组内协变量和观察变量之间存在线性关系。
       按组分别绘制散点图和计算相关系数

   条件9：各组内协变量和因变量的回归直线平行，即通过平行性检验。
       平行性检验通过判断group与Food的交互项是否有统计学意义决定。




两因素方差分析一(无交互作用)
   两因素方差分析，需要满足6个条件：
   条件1：观察变量唯一，且为连续变量。
   条件2：有两个分组变量，且都为分类变量。
   条件3：观测值相互独立。
   条件4：观察变量不存在显著的异常值。
   条件5：各组、各水平观察变量为正态(或近似正态)分布。
   条件6：相互比较的各处理水平(组别)的总体方差相等，即通过方差齐性检验。

   单独效应是指其他因素的水平固定时，同一因素不同水平间的差别。
   主效应是指某一因素各水平间的平均差别。
   交互作用是指当因素的各个单独效应随另一因素变化而变化。

"""
   (二) 适用条件判断
   条件4~条件6需要通过模型残差进行判断，因此先生成模型残差。
   1. 生成模型残差
   ##计算模型，得预测值(图2)##
   import statsmodels.formula.api as smf #加载statsmodels.formula.api库
   X = df[['Drug_A', 'Drug_B']]
   y = df['Time']
   ana = smf.ols('Time ~ C(Drug_A) * C(Drug_B)', data=df).fit() #计算模型
   df.loc[:,'res'] = y - ana.predict(X)

   2. 条件4判断(异常值判断)
   ## 绘制箱线图 ##
   sns.boxplot(x = 'Drug_A', y = 'res', data = df,hue='Drug_B') #绘制箱线图

   3. 条件5判断(正态性检验)
   ## 正态性检验 ##
   from scipy.stats import shapiro
   shapiro(df.res)

   4. 条件6判断(方差齐性检验)
   ## 方差齐性检验 ##
   import pingouin as pg
   df.loc[:,'group'] = df.apply(lambda x: "%d_%d"%(x["Drug_A"],x["Drug_B"]),axis = 1)
   print(pg.homoscedasticity(df, dv='res', group='group',method='levene',center = 'mean'))
   --------------------------------------------------------
   (三) 统计描述
   df.groupby(["Drug_A","Drug_B"]).mean()
   df.groupby(["Drug_A","Drug_B"]).std()
   (四) 两因素方差分析
   ## 绘制边际均数图 ##
   import seaborn
   seaborn.lmplot(y='Time', x = 'Drug_A', hue = 'Drug_B',data=df)
   边际均数图显示了各组镇痛时间的变化情况，可见两药物的变化曲线基本平行，不存在明显的交互作用。

(五) 交互作用判断
本案例有两个因素(一个为A药，另一个为B药)，因此需要首先判断两个因素(药物)之间是否存在交互作用。如果交互作用有统计学意义，则需要分析单独效应。此时，单纯研究某个因素的作用并无意义，应分别探讨另一个因素不同水平时对该因素的作用。

   from statsmodels.formula.api import ols
   from statsmodels.stats.anova import anova_lm
   formula = 'Time~ C(Drug_A)+C(Drug_B)+C(Drug_A) * C(Drug_B) '
   anova_results = anova_lm(ols(formula,df).fit())
   print(anova_results)
   #提示Drug_A与Drug_B之间的交互作用无统计学意义。
   #因此，本案例可直接以主效应分析结果进行判断，如果交互作用有统计学意义，则需要分析单独效应。

   (六) A药主效应分析
   根据(五)，A药的主效应检验结果显示，FDrug_A=88.162，P<0.001，认为不同药物浓度时，镇痛时间差异有统计学意义。
   (七) B药主效应分析
   根据(五)，B药的主效应检验结果显示，FDrug_B=95.269，P<0.001，认为不同药物浓度时，镇痛时间差异有统计学意义。

   (八) 事后检验(两两比较)
   A、B药物在不同药物浓度时，镇痛时间差异均有统计学意义的结论，因此需要进行事后检验，开展两两比较。
   from statsmodels.stats.multicomp import pairwise_tukeyhsd
   print(pairwise_tukeyhsd(df ['Time'], df ['Drug_A']))
   print(pairwise_tukeyhsd(df ['Time'], df ['Drug_B']))

"""

单因素重复测量资料的方差分析(One-Way Repeated Measures ANOVA)同一受试对象的同一观察指标在不同时间点上进行多次测量所获得的资料，常用来分析该观察指标在不同时间点上的变化特点。

单因素重复测量方差分析，需要满足6个条件：
   条件1：观察变量唯一，且为连续变量。
   条件2：观察变量为重复测量数据，即不满足独立性。
   条件3：观察变量不存在显著的异常值。
   条件4：各水平(时间点)观察变量为正态(或近似正态)分布。
   条件5：各重复测量水平观察变量的协方差相等，即满足球形假设。---
   满足球形假设，此时无须对区组内效应的F界值进行矫正。
"""
   (二) 适用条件判断
   1. 条件3判断(异常值判断)
   plt.boxplot((df.T0,df.T30,df.T60,df.T90),labels=('T0','T30','T60','T90'),vert = True)
   2. 条件4判断(正态性检验)
   ## 绘制Q-Q图 ##
   import statsmodels.api as sm
   sm.qqplot(df.T0, line='s') #绘制T0组的Q-Q图
   sm.qqplot(df.T30, line='s') #绘制T30组的Q-Q图
   sm.qqplot(df.T60, line='s') #绘制T60组的Q-Q图
   sm.qqplot(df.T90, line='s') #绘制T90组的Q-Q图

   ## 正态性检验 ##]
   from scipy import stats
   shapiro_test1 = stats.shapiro(df.T0) #检验T0的正态性
   shapiro_test2 = stats.shapiro(df.T30) #检验T30的正态性
   shapiro_test3 = stats.shapiro(df.T60) #检验T60的正态性
   shapiro_test4 = stats.shapiro(df.T90) #检验T90的正态性

   3. 条件5判断(球形假设检验)
   df2 = df.melt(id_vars=['ID']) #将宽数据转化为长数据["ID","variable","value"]
   import pingouin
   pingouin.sphericity(df2,dv='value',within='variable',subject='ID',method='mauchly') #球形检验
   “SpherResults(球形度检验)”结果显示，W=0.252，P=0.061，>0.05，满足条件5。
   因此，本案例可以直接采用非校正方法分析的结果。

   重复测量数据的方差分析过程中，需要先考察数据的球形分布特征。
   当违背了球形假设条件时，需要进行epsilon (ε)校正。epsilon (ε)值越低，说明违反球形假设的程度越大。
   当epsilon (ε)=1时，完全服从球形假设。
   当Greenhouse-Geisserepsilonε<0.75时，使用Greenhouse-Geisser方法校正；
   当Greenhouse-Geisserepsilonε>0.75时，使用Huynh-Feldt方法校正。
   --------------------------------------------------------
   ## 重复测量的方差分析 ##
   from statsmodels.stats.anova import AnovaRM
   print(AnovaRM(data=df2, depvar='value', subject='ID', within=['variable']).fit()) #重复测量方差分析
   --------------------------------------------------------
   (四) 事后检验(两两比较)
   上面分析得出了“不同时间点生化指标浓度差异有统计学意义”的结论，但是到底是哪些组别之间存在差异尚不清楚，
   因此需要进行事后检验，开展两两比较。
   ## 事后检验 ##
   from statsmodels.stats.multicomp import pairwise_tukeyhsd,tukeyhsd,MultiComparison
   print(pairwise_tukeyhsd(df2['value'], df2['variable'])) #事后两两比较

"""

两因素重复测量资料的方差分析 (Two-way Repeated Measures ANOVA)—(无交互作用)
在单因素重复测量资料方差分析基础上增加了一个处理因素，常要考虑处理因素(分组)与时间因素(重复测量)两个因素。因此, 重复测量资料的变异可分解为处理因素、时间因素、处理因素和时间因素的交互作用、受试对象间的随机误差和重复测量的随机误差。

两因素重复测量资料方差分析，需要满足6个条件：
   条件1：观察变量唯一，且为连续变量。
   条件2：有两个分析因素。
   条件3：观察变量为重复测量数据，即不满足独立性。
   条件4：观察变量不存在显著的异常值。
   条件5：各组、各水平(时间点)观察变量为正态(或近似正态)分布。
   条件6：相互比较的各处理水平(组别)的总体方差相等，即方差齐性。

"""
   df.loc[df['group']==1,'group']='A'
   df.loc[df['group']==2,'group']='B'
   --------------------------------------------------------
   (二) 适用条件判断
   1. 条件4判断(异常值判断)
   plt.boxplot([df.loc[df.loc[:,'group']=='A','time1'],df.loc[df.loc[:,'group']=='B','time1']], labels=["A","B"])
   plt.boxplot([df.loc[df.loc[:,'group']=='A','time1'],df.loc[df.loc[:,'group']=='B','time2']], labels=["A","B"])
   plt.boxplot([df.loc[df.loc[:,'group']=='A','time1'],df.loc[df.loc[:,'group']=='B','time3']], labels=["A","B"])

   2. 条件5判断(正态性检验)
   ## 正态性检验 ##
   from scipy import stats #导入stats模块
   shapiro_test1 = stats.shapiro(df.loc[df.loc[:,'group']=='A','time1'])
   shapiro_test2 = stats.shapiro(df.loc[df.loc[:,'group']=='B','time1'])
   shapiro_test3 = stats.shapiro(df.loc[df.loc[:,'group']=='A','time2'])
   shapiro_test4 = stats.shapiro(df.loc[df.loc[:,'group']=='B','time2'])
   shapiro_test5 = stats.shapiro(df.loc[df.loc[:,'group']=='A','time3'])
   shapiro_test6 = stats.shapiro(df.loc[df.loc[:,'group']=='B','time3'])

   3. 条件6判断(方差齐性检验)
   leveneTestRes1 = stats.levene(df.loc[df.loc[:,'group']=='A','time1'],df.loc[df.loc[:,'group']=='B','time1'],center='mean')
   print(leveneTestRes1)
   leveneTestRes2 = stats.levene(df.loc[df.loc[:,'group']=='A','time2'],df.loc[df.loc[:,'group']=='B','time2'],center='mean')
   print(leveneTestRes2)
   leveneTestRes3 = stats.levene(df.loc[df.loc[:,'group']=='A','time3'],df.loc[df.loc[:,'group']=='B','time3'],center='mean')
   print(leveneTestRes3)

   (三) 球形检验
   ## 宽数据转换为长数据 ##
   df2 = df.melt(id_vars=['ID','group']) # ['ID','group','variable','value']
   ## 球形检验 ##
   import pingouin
   pingouin.sphericity(df2,dv='value',within='variable',subject='ID',method='mauchly')
   莫奇来球形检验结果（SpherResults）见图8可知，W=0.884，P=0.330，表示数据满足球形假设。
   因此本案例可以直接采用非校正方法分析的结果。

   (四) 交互作用判断
   由于本案例有两个因素(一个为时间因素time，另一个为分组因素group)，因此需要首先判断两个因素之间是否存在交互作用。
   如果交互作用有统计学意义，则需要分析单独效应。
   ## 重复测量方差分析 ##
   pingouin.mixed_anova(data= df2,dv='value',within='variable',subject='ID',between='group')

   分析结果见图9，time与group之间的交互作用结果为FInteraction=0.106，P=8.995e-01，提示time与group之间的交互作用无统计学意义，
   本案例可直接以主效应分析结果进行判断，如果交互作用有统计学意义，则需要分析单独效应

   (五) 时间效应分析
   time的检验结果(图9)可知，Ftime(variable)=437.3，P＜0.001，表示体重变化具有时间变化趋势。

   (六) 组间效应分析
   group的检验结果(图9)可知，Fgroup＜0.001，P=9.903e-01，表示两种饲料对家兔的增重效果差异无统计学意义。

   (七) 事后检验(两两比较)
   ## 事后检验 ##
   from statsmodels.stats.multicomp import pairwise_tukeyhsd
   dc_sales_anova_post=pairwise_tukeyhsd(df2['value'], df2['variable'], alpha=0.05)
   print(dc_sales_anova_post.summary()) #检验不同时间之间的差异
"""

---------------------------------------------
卡方检验
---------------------------------------------
卡方分布及卡方检验的基本思想
2×2卡方检验
四格表资料的χ²检验适用条件
条件1：分组变量与观察变量均为二分类变量。
条件2：观察变量相互独立。
条件3：总例数≥40，且所有期望频数(理论频数)≥5

2×2 Fisher确切概率法
适用条件
条件1：分组变量和观察变量均为二分类变量。
条件2：观测值相互独立。

R×C卡方检验
适用条件
条件1：分组变量和观察变量均为分类变量，至少有一个无序多分类变量，且观察变量不是有序多分类变量。
条件2：观测值之间相互独立。
条件3：样本量足够大，使得任一单元格内的期望频数均≥5。
条件4：两个变量是同一随机样本的两种属性。

率的多重比较

配对卡方（McNemar）检验
适用条件
条件1：分类变量或观察变量为二分类变量。
条件2：试验方法或干预措施为两个。
条件3：研究设计为配对设计，即对同一批样本或研究对象进行两种方法的检测或干预。

---------------------------------------------
相关分析
---------------------------------------------
Pearson相关分析
适用条件
Pearson相关性分析，需要满足5个条件：
条件1：两变量均为连续变量。
条件2：两变量应当是配对的，即来源于同一个个体。
条件3：两变量之间存在线性关系，通常绘制散点图检验。
条件4：两变量没有明显的异常值，通常绘制箱线图检验。异常值会对相关性分析的结果造成很大影响，如果存在异常值，应修改为正确值或进行变换去除，并在报告中指出。
条件5：两变量呈双变量正态分布或近似正态分布，通常绘制Q-Q图或进行正态性检验

Spearman相关分析
适用条件
Spearman相关性分析，需要满足2个条件：
条件1：变量包含等级变量、或变量不服从正态分布或分布类型未知。
条件2：两变量之间存在单调关系。

Kendall's tau-b相关分析
适用条件
Kendall's tau-b等级相关性分析，需要满足2个条件：
条件1：两变量是两个连续变量，或两变量是两个有序分类变量，或一个有序分类变量一个连续变量。
条件2：两变量应当是配对的，即来源于同一个个体。

偏相关分析
在现实生活中，两个变量之间的相关关系往往会受到第三个变量的影响，从而使得相关系数不能真实地反映两变量之间的线性相关程度。
偏相关分析(Partial Correlations Analysis)也称净相关分析，是指当两个变量同时与第三个变量相关时，将第三个变量的影响剔除，只分析将要探索的两变量间相关程度的过程。当控制变量个数为1时，偏相关阶数为1；当控制变量个数为2时，偏相关阶数为2。
偏相关分析包括Pearson偏相关性分析、Spearman偏相关性分析和Kendall's tau-b偏相关性分析。

---------------------------------------------
回归分析
---------------------------------------------
简单线性回归
适用条件
简单线性回归分析，一般适用于以下6个条件：
条件1：因变量和自变量为定量变量。
条件2：因变量和自变量之间具有线性关系，可通过散点图加以判断。
条件3：因变量的观察值来自正态分布且方差相同。
条件4：观察变量不存在显著的异常值。
条件5：观察变量相互独立。
条件6：残差方差齐。

"""
(二) 适用条件判断
1. 条件2判断(因变量和自变量之间存在线性关系)
##线性关系判断 ##

"""

多重线性回归
多重线性回归分析，一般需要满足以下7个条件：
条件1：样本量至少应是自变量个数的5~10倍。
条件2：自变量若为连续变量，需要与因变量之间存在线性关系，可通过绘制散点图予以考察。
条件3：各观测值之间相互独立，即残差之间不存在自相关。
条件4：不存在显著的多变量异常值。
条件5：自变量之间无多重共线性。
条件6：残差符从正态(或近似正态)分布。
条件7：残差大小不随所有变量取值水平的变化而变化，即方差齐性。

二分类Logistic回归
二分类logistic回归需要满足以下6个条件：
条件1：因变量为二分类变量。
条件2：至少有1 个自变量，可以是分类变量，也可以是连续变量。
条件3：因变量的观察结果相互独立。
条件4：例数较少类的因变量例数为自变量个数的10~15 倍(EPV原则)，且经验上两组的人数最好>30例，自变量的参照水平组不应少于30或50例。
条件5：自变量之间无多重共线性。
条件6：自变量不存在明显的异常值

有序Logistic回归
有序多分类logistic回归需要满足5个条件：
条件1：因变量唯一，且为有序多分类变量。
条件2：存在一个或多个自变量。可为定性与定量变量。
条件3：因变量的观察结果相互独立。
条件4：自变量之间无多重共线性。
条件5：满足平行性检验(即比例优势假设)。

无序多分类Logistic回归
无序多分类logistic回归需要满足3个条件：
条件1：因变量唯一，且为无序多分类变量。
条件2：存在一个或多个自变量，可为定性与定量变量。
条件3：一般要求例数较少因变量类的观察例数为自变量个数的10~15倍(EPV原则)且经验上每组的人数最好多于30例，自变量的参照水平组不应少于30或50例。

条件Logistic回归
条件logistic回归需要满足以下6个条件：
条件1：因变量为二分类变量。
条件2：至少有1个自变量，可以是分类变量，也可以是连续变量。
条件3：因变量的观察结果为配对设计或具有相关性，即不满足独立性。
条件4：因变量对子数为自变量个数的10~15倍(EPV原则)，最好＞30对，自变量的参照水平组不应少于30或50例。
条件5：自变量之间无多重共线性。
条件6：自变量不存在明显的异常值。

Poisson分布
适用条件
考察一个变量X是否服从Poisson分布，需要满足以下条件：
条件1：在充分小的观察单位上X的取值最多为1，事件出现两次或两次以上的概率可忽略不计。
条件2：一个事件的发生不影响其它事件的发生，即事件独立发生，不存在传染性、聚集性的事件。
条件3：每一次事件的发生概率是相同的。

Poisson回归
考察一组资料是否可以采用Poisson回归进行分析，至少需要满足以下2个条件：
条件1：一个事件的发生不影响其它事件的发生，即事件独立发生，不存在传染性、聚集性的事件。
条件2：因变量Y服从Poisson分布，总体均数𝜆 =总体方差σ²。

负二项回归
负二项回归至少需要满足以下2个条件：
条件1：各观测行间是非独立的，事件的发生有空间聚集现象。
条件2：因变量存在过离散现象，即方差远大于均数。

Probit回归理论介绍
对数线性模型理论

---------------------------------------------
生存分析
---------------------------------------------
时间依存Cox回归
适用条件
条件1：因变量是含有时间信息的二分类变量。本案例中因变量是包含生存时间的二分类资料，
time是生存时间(天)；status是生存结局。本案例数据满足该条件。
条件2：各观测值之间相互独立，无互相干扰。由数据和研究设计可知，该条件满足。
条件3：一般要求结局事件的样本量为自变量个数的10~20倍(EPV原则)。该条件需要软件分析来判断。
条件4：自变量之间无严重多重共线性。该条件需要软件分析来判断。
条件5：等比例风险(Proportional hazards，PH)假设，该条件需要软件分析来判断。