关于逻辑回归（Logistic regression）模型的简单思考

最新推荐文章于 2024-05-31 09:00:00 发布

wgdzz

最新推荐文章于 2024-05-31 09:00:00 发布

阅读量4.3k

点赞数 1

分类专栏：机器学习文章标签：机器学习 lr python

本文链接：https://blog.csdn.net/wgdzz/article/details/48478813

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

关于逻辑回归（Logistic regression）模型的简单思考

Tags：机器学习算法

　　Logistic regression(LR)模型是一种分类算法，它将特征空间映射成一种可能性，本文将从以下几方面解释逻辑回归模型：

逻辑回归模型的定义
逻辑回归模型的概率论解释
逻辑回归的引申：条件随机场
求解实现（Python）

1.逻辑回归模型的定义

　　模型输入为 $\vec{x}$ （简记为 $x$ ），输出为 $y\in{0,1}$ 。定义 $p(y=1|x)=h_\theta(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}$ 。
其中， $\theta$ 为参数， $g(z)=\frac{1}{1+e^{-z}}$ ，又被称为logistic函数或者sigmoid函数。sigmoid函数取值在 $(0,1)$ 之间。

2.逻辑回归的概率解释

　　考虑二分类问题， $c_i$ 表示第 $i$ 类， $i\in\\{0,1\\}$ 。 $x$ 作为输入，表示特征。用 $p(c_i|x)$ 表示已知 $x$ 时，类别为 $c_i$ 的概率。由贝叶斯理论有：

p (c i | x) = p ( c i , x ) p ( x ) = p ( c i ) * p ( x | c i ) p ( x )

$p(c_i|x)=\frac{p(c_i,x)}{p(x)}=\frac{p(c_i)*p(x|c_i)}{p(x)}$
其中

p(x)=∑cip(ci,x)=∑cip(ci)∗p(x|ci) $p(x)=\sum_{c_i}{p(c_i,x)}=\sum_{c_i}{p(c_i)*p(x|c_i)}$
　　对于二分类，带入

i=1 $i=1$ 的值有：

p (c 1 | x) = 1 1 + p ( c 0 ) * p ( x | c 0 ) p ( c 1 ) * p ( x | c 1 )

$\begin{equation} p(c_1|x)=\frac{1}{1+\frac{p(c_0)*p(x|c_0)}{p(c_1)*p(x|c_1)}} \end{equation}$
令

a=lnp(c0)∗p(x|c0)p(c1)∗p(x|c1) $a=ln{\frac{p(c_0)*p(x|c_0)}{p(c_1)*p(x|c_1)}}$
　　取先验概率

p(ci)∼Bernoulli(Φ) $p(c_i) \sim Bernoulli(\Phi)$ 时，若

p(x|ck) $p(x|c_k)$ 服从高斯分布，且共享协方差矩阵，即

p(x|ck)=1(2π)D/21|Σ|1/2exp−12(x−uk)TΣ−1(x−uk) $p(x|c_k)=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma|^{1/2}}exp\\{-\frac{1}{2}(x-u_k)^T\Sigma^{-1}(x-u_k)\\}$ 。
　　则

p(ck|x) $p(c_k|x)$ 符合逻辑回归模型的形式。即

p(ck|x)=11+e−wTx $p(c_k|x)=\frac{1}{1+e^{-w^Tx}}$ 。
　　当

p(x|ck) $p(x|c_k)$ 服从泊松分布时，也有此结果。

高斯判别模型（Gaussian Discriminant Analysis，GDA）与逻辑回归模型

　　高斯判别模型属于生成模型（即对联合概率建模），逻辑回归模型属于判别模型（即对条件概率建模）。
我们将 $p(y=1|x;W)$ 看做 $x$ 的函数（W表示参数集合），可以证明有如下形式：

p (y = 1 | x; W) = 1 1 + e x p ( - θ T x )

$p(y=1|x;W)=\frac{1}{1+exp(-\theta^Tx)}$

　　当训练相同的数据集时，这两个模型将得到不同的分类边界，哪一个更好？

高斯判别模型可以转化为逻辑回归模型，反之不一定。即高斯判别模型有更强的模型假设。
当该假设正确时，GDA有更好的效果（更少的数据就可以学的不错）。换句话说，LR鲁棒性更强。
LR模型的假设要求更弱，例如，如果 $x|y \sim Poission(\lambda)$ ，LR仍然有效。

3.从逻辑回归到条件随机场

　　朴素贝叶斯和LR模型最大区别在于前者是生成模型，后者是判别模型。可以认为两者有相同的假设空间，在这种意义下，任何LR分类器和一个朴素贝叶斯分类器可以在相同的决策界下相互转换。朴素贝叶斯可以转化为有向图模型，LR模型可以转换为无向图模型。
　　LR模型的输出是标量，CRF输出是结构化的多元输出（应该可以看做向量吧），因此LR模型可以看做最简单的CRF模型。
　　 from C. Sutton, and A. McCallum. (2007). "An Introduction to Conditional Random Fields for Relational Learning."
图片来源：C. Sutton, and A. McCallum. (2007). “An Introduction to Conditional Random Fields for Relational Learning”

4.用Python实现LR模型

以下代码是搬运他人教程。详见参考资料3。
问题描述：
辨别不同因素对研究生录取的影响：
影响变量（predictor variables）：
- gpa
- gre 分数
- rank 本科生母校声望
预测变量：admit，表示考生是否被录用，0/1变量

import pandas as pd
import statsmodels.api as sm
import pylab as pl
import numpy as np

# 加载数据
# 备用地址: http://cdn.powerxing.com/files/lr-binary.csv
df = pd.read_csv("http://www.ats.ucla.edu/stat/data/binary.csv")

# 重命名'rank'列，因为rank也是pandas dataframe中一个方法的名字
df.columns = ["admit", "gre", "gpa", "prestige"]
print df.columns
# array([admit, gre, gpa, prestige], dtype=object)

# summarize the data
print df.describe()

# 将prestige设为虚拟变量
# 虚拟变量，也叫哑变量，可用来表示分类变量、非数量因素可能产生的影响。在计量经济学模型，需要经常考虑属性因素的影响。例如，职业、文化程度、季节等属性因素往往很难直接度量它们的大小。只能给出它们的“Yes—D=1”或”No—D=0”，或者它们的程度或等级。为了反映属性因素和提高模型的精度，必须将属性因素“量化”。通过构造0-1型的人工变量来量化属性因素。
dummy_ranks = pd.get_dummies(df['prestige'], prefix='prestige')
print dummy_ranks.head()

# 为逻辑回归创建所需的data frame
# 除admit、gre、gpa外，加入了上面常见的虚拟变量（注意，引入的虚拟变量列数应为虚拟变量总列数减1，减去的1列作为基准）
cols_to_keep = ['admit', 'gre', 'gpa']
data = df[cols_to_keep].join(dummy_ranks.ix[:, 'prestige_2':])

# 需要自行添加逻辑回归所需的intercept变量
data['intercept'] = 1.0

# 指定作为训练变量的列，不含目标列`admit`
train_cols = data.columns[1:]
# Index([gre, gpa, prestige_2, prestige_3, prestige_4], dtype=object)
# 在这里是使用了statesmodels的Logit函数，更多的模型细节可以查阅statesmodels的文档
logit = sm.Logit(data['admit'], data[train_cols])
# 拟合模型
result = logit.fit()

# 构建预测集
# 与训练集相似，一般也是通过 pd.read_csv() 读入
# 在这边为方便，我们将训练集拷贝一份作为预测集（不包括 admin 列）
import copy
combos = copy.deepcopy(data)
# 数据中的列要跟预测时用到的列一致
predict_cols = combos.columns[1:]
# 预测集也要添加intercept变量
combos['intercept'] = 1.0
# 进行预测，并将预测评分存入 predict 列中
combos['predict'] = result.predict(combos[predict_cols])
# 预测完成后，predict 的值是介于 [0, 1] 间的概率值
# 我们可以根据需要，提取预测结果
# 例如，假定 predict > 0.5，则表示会被录取
# 在这边我们检验一下上述选取结果的精确度
total = 0
hit = 0
for value in combos.values:
  # 预测分数 predict, 是数据中的最后一列
  predict = value[-1]
  # 实际录取结果
  admit = int(value[0])
  # 假定预测概率大于0.5则表示预测被录取
  if predict > 0.5:
    total += 1
    # 表示预测命中
    if admit == 1:
      hit += 1
# 输出结果
print 'Total: %d, Hit: %d, Precision: %.2f' % (total, hit, 100.0*hit/total)
# Total: 49, Hit: 30, Precision: 61.22

# 查看数据的要点
print result.summary()

参考资料：
1. CS229 Lecture notes(Andrwe Ng)
2. Pattern Recognition and Machine Learning(PRML)
3. Python实现逻辑回归(Logistic Regression in Python)

wgdzz

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
关于逻辑回归（Logistic regression）模型的简单思考

关于逻辑回归（Logistic regression）模型的简单思考Tags：机器学习算法　　Logistic regression(LR)模型是一种分类算法，它将特征空间映射成一种可能性，本文将从以下几方面解释逻辑回归模型：逻辑回归模型的定义逻辑回归模型的概率论解释逻辑回归的引申：条件随机场求解实现（Python） 1.逻辑回归模型的定义　　模型输入为x⃗ \
复制链接

扫一扫