Logistic模型
logistic回归又称logistic回归分析,主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。例如,想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。这里的因变量就是–是否胃癌,即“是”或“否”,为两分类变量,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是离散的。通过logistic回归分析,就可以大致了解到底哪些因素是胃癌的危险因素。
与多重线性回归的比较:
logistic回归(Logistic regression) 与多重线性回归实际上有很多相同之处,最大的区别就在于他们的因变量不同,其他的基本都差不多,正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalized linear model)。这一家族中的模型形式基本上都差不多,不同的就是因变量不同,如果是连续的,就是多重线性回归,如果是二项分布,就是logistic回归,如果是poisson分布,就是poisson回归,如果是负二项分布,就是负二项回归,等等。只要注意区分它们的因变量就可以了。
logistic回归的因变量可以是二分非线性差分方程类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最为常用的就是二分类的logistic回归。
logistic回归模型:
逻辑回归(Logistic Regression)是机器学习中最常见的一种用于二分类的算法模型,由于其数学原理简单易懂,作用高效,其实际应用非常广泛。虽然带回归二字,实则是分类模型,下面从logit变换开始。
logit变换:
*Logit模型(Logit model,也译作“评定模型”,“分类评定模型”,又作Logistic regression,“逻辑回归”)是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。
线性回归模型的一个局限性是要求因变量是定量变量(定距变量、定比变量)而不能是定性变量(定序变量、定类变量)。但是在许多实际问题中,经常出现因变量是定性变量(分类变量)的情况。可用于处理分类因变量的统计分析方法有:判别分析( Discriminantanalysis)、 Probit分析、 Logistic回归分析和对数线性模型等。在社会科学中,应用最多的是 Logistic回归分析。
Logistic回归分析根据因变量取值类别不同,又可以分为二元 Logistic回归分析和多元 Logistic回归分析,二元 Logistic回归模型中因变量只能取两个值1和0(虚拟因变量),而多元 Logistic回归模型中因变量可以取多个值。逻辑分布(Logistic distribution)公式:
P(Y=1│X=x)=exp(x’β)/(1+exp(x’β)) 其中参数β常用极大似然估计。
Logit模型是最早的离散选择模型,也是应用最广的模型。Logit模型是Luce(1959)根据IIA特性首次导出的;Marschark(1960)证明了Logit模型与最大效用理论的一致性;Marley(1965)研究了模型的形式和效用非确定项的分布之间的关系,证明了极值分布可以推导出Logit形式的模型。
McFadden(1974)反过来证明了具有Logit形式的模型效用非确定项一定服从极值分布。
此后Logit模型在心理学、社会学、经济学及交通领域得到了广泛的应用,并衍生发展出了其他离散选择模型,形成了完整的离散选择模型体系,如Probit模型、NL模型(Nest Logit model)、Mixed Logit模型等。
Logit模型的应用广泛性的原因主要是因为其概率表达式的显性特点,模型的求解速度快,应用方便。当模型选择集没有发生变化,而仅仅是当各变量的水平发生变化时(如出行时间发生变化),可以方便的求解各选择枝在新环境下的各选择枝的被选概率。根据Logit模型的IIA特性,选择枝的减少或者增加不影响其他各选择之间被选概率比值的大小,因此,可以直接将需要去掉的选择枝从模型中去掉,也可将新加入的选择枝添加到模型中直接用于预测。
Logit模型这种应用的方便性是其他模型所不具有的,也是模型被广泛应用的主原因之一。*
软件实现方式:
在stata中,logistic回归可以得到很好的实现。主要命令为:
logistic hcv age marry sex
其中,logistic为主命令,hcv为因变量,后面的三个变量依次为自变量。
如果自变量既存在哑变量又存在连续变量,系统自带的help里面没有提到,可用如下方式:
xi:logistichcvagei.marryi.sex
其中,xi表示后面带i.的变量将自动变为哑变量。
分岔图(MATLAB实现):
clc, clear;
x = 0.5;
i = 1;
for mu=0:0.00001:2
x = 1-mu*x*x;
y(i) = x;
i = i+1;
end
plot(0:0.00001:2,y,'.');
hold on
xlabel('\mu');
ylabel('x');