1. 简述逻辑回归,并简述它与线性回归的关系
逻辑回归(Logistic Regression) 与 线性回归(Linear Regression) 都是一种广义线性模型(generalized linear model)。逻辑回归袈裟因变量y服从伯努利分布,而线性回归假设因变量y服从高斯分布。因此与线性回归有很多相同之处,去除Sigmoid映射函数的话,逻辑回归算法就是一个线性回归。可以说,逻辑回归是以线性回归为理论支持的,但是逻辑回归通过Sigmoid函数引入了非线性因素,因此可以轻松处理0/1分类问题。
2. 回归问题常用的性能度量指标
- 均方误差(MSE)
MSE(Mean Square Error):是反映估计值与被估计值之间差异程度的一种度量,公式如下:
M S E = 1 n ∑ i = 1 n ( y i − y i ^ ) 2 \begin{aligned} MSE=\frac{1}{n}\sum^n_{i=1}(y_i-\hat{y_i})^2 \end{aligned} MSE=n1i=1∑n(yi−yi^)2 - 均方根误差(RMSE)
RMSE(Root Mean Square Error):观测值与真值偏差的平方和与观测次数n比值的平方根,用来衡量观测值同真值之间的偏差。公式如下:
R M S E = M S E = 1 n ∑ i = 1 n ( y i − y i ^ ) 2 \begin{aligned} RMSE=\sqrt{MSE}=\sqrt{\frac{1}{n}\sum^n_{i=1}(y_i-\hat{y_i})^2} \end{aligned} RMSE=MSE=n1i=1∑n(yi−yi^)2 - 和方误差(SSE)
S S E = ∑ i = 0 n ( f ( x i ) − y i ) 2 \begin{aligned} SSE=\sum^n_{i=0}(f(x_i)-{y_i})^2 \end{aligned} SSE=i=0∑n(f(xi)−yi)2 - MAE
MAE(mean Absolute Error):计算模型输出与真实值之间的平均绝对误差。
M A E = 1 n ∑ i = 0 n ∣ y i − y i ^ ∣ \begin{aligned} MAE=\frac{1}{n}\sum^n_{i=0}|y_i-\hat{y_i}| \end{aligned} MAE=n1i=0∑n∣yi−yi^∣ - MAPE
MAPE(Mean Absolute Percentage Error):不仅考虑预测值与真实值的误差,还考虑了误差与真实值之间的比例。
M A P E = 1 n ∑ i = 0 n ∣ y i − y i ^ ∣ y i \begin{aligned} MAPE=\frac{1}{n}\sum^n_{i=0}\frac{|y_i-\hat{y_i}|}{y_i} \end{aligned} MAPE=n1i=0∑nyi∣yi−yi^∣ - 决定系数 - coefficient of determination
由RSS(residual sum of squares),TSS(total sum of squares)组成, y i ^ \hat{y_i} yi^表示预测值, y i ‾ \overline{y_i} yi表示均值
R − s q u a r e d = 1 − R S S T S S R S S = ∑ i = 1 n ( y i − y i ^ ) 2 T S S = ∑ i = 1 n ( y i − y i ‾ ) 2 \begin{aligned} &R-squared=1-\frac{RSS}{TSS} \\ &RSS = \sum^n_{i=1}(y_i-\hat{y_i})^2 \\ &TSS = \sum^n_{i=1}(y_i-\overline{y_i})^2 \end{aligned} R−squared=1−TSSRSSRSS=i=1∑n(yi−yi^)2TSS=i=1∑n(yi−yi)2
3. 分类问题常用的性能度量指标
准确率:
A
c
c
u
r
a
c
y
=
T
P
+
T
N
T
P
+
F
N
+
F
P
+
T
N
\begin{aligned} Accuracy=\frac{TP+TN}{TP+FN+FP+TN} \end{aligned}
Accuracy=TP+FN+FP+TNTP+TN
精确率(查准率):
P
r
e
c
i
s
i
o
n
=
T
P
T
P
+
F
P
\begin{aligned} Precision=\frac{TP}{TP+FP} \end{aligned}
Precision=TP+FPTP
召回率(查全率):
R
e
c
a
l
l
=
T
P
T
P
+
F
N
\begin{aligned} Recall=\frac{TP}{TP+FN} \end{aligned}
Recall=TP+FNTP
真正例率(TPR):
T
P
R
=
T
P
T
P
+
F
N
\begin{aligned} TPR=\frac{TP}{TP+FN} \end{aligned}
TPR=TP+FNTP
假正例率(FPR):
F
P
R
=
F
P
T
N
+
F
P
\begin{aligned} FPR=\frac{FP}{TN+FP} \end{aligned}
FPR=TN+FPFP
F1:
F
1
=
2
∗
P
r
e
c
i
s
i
o
n
∗
R
e
c
a
l
l
P
r
e
c
i
s
i
o
n
+
R
e
c
a
l
l
\begin{aligned} F1=\frac{2*Precision*Recall}{Precision+Recall} \end{aligned}
F1=Precision+Recall2∗Precision∗Recall