Task1 Linear_regression||datawhale

最新推荐文章于 2021-07-22 21:36:37 发布

你会弹琴吗

最新推荐文章于 2021-07-22 21:36:37 发布

阅读量289

点赞数

本文链接：https://blog.csdn.net/weixin_45568353/article/details/105610179

版权

什么是回归？
回归的目的是预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式。

说到回归，一般都是指线性回归（linear regression），所以本文里的回归和线性回归代表同一个意思。线性回归意味着可以将输入项分别乘以一些常量，再将结果加起来得到输出。

极大似然估计
极大似然估计，通俗理解来说，就是利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值！
换句话说，极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。

似然函数

P(x|θ)：输入有两个：x表示某一个具体的数据；θθ表示模型的参数

如果θ是已知确定的，x是变量，这个函数叫做概率函数(probability function)，它描述对于不同的样本点x，其出现概率是多少。

如果x是已知确定的，θ是变量，这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数，出现x这个样本点的概率是多少

这有点像“一菜两吃”的意思。其实这样的形式我们以前也不是没遇到过。例如， , 即x的y次方。如果x是已知确定的(例如x=2)，这就是 , 这是指数函数。如果y是已知确定的(例如y=2)，这就是，这是二次函数。同一个数学形式，从不同的变量角度观察，可以有不同的名字。

最大似然估计（MLE）
在这里插入图片描述
假如我们拿这枚硬币抛了10次，得到的数据（x0x0）是：反正正正正反正正正反。我们想求的正面概率θθ是模型参数，而抛硬币模型我们可以假设是二项分布。

那么，出现实验结果x0x0（即反正正正正反正正正反）的似然函数是多少呢？
f(x0,θ)=(1−θ)×θ×θ×θ×θ×(1−θ)×θ×θ×θ×(1−θ)=θ7(1−θ)3=f(θ)

这是个只关于θθ的函数。而最大似然估计，顾名思义，就是要最大化这个函数。我们可以画出f(θ)f(θ)的图像
在这里插入图片描述
可以看出，在θ=0.7θ=0.7时，似然函数取得最大值

且慢，一些人可能会说，硬币一般都是均匀的啊！就算你做实验发现结果是“反正正正正反正正正反”，我也不信θ=0.7
这里就包含了贝叶斯学派的思想了——要考虑先验概率。为此，引入了最大后验概率估计

最大后验概率估计
最大似然估计是求参数θ, 使似然函数P(x0|θ)最大。最大后验概率估计则是想求θ使P(x0|θ)P(θ)最大。求得的θ不单单让似然函数大，θ自己出现的先验概率也得大。（这有点像正则化里加惩罚项的思想，不过正则化里是利用加法，而MAP里是利用乘法）

在这里插入图片描述
总之，px0是一个可以由数据集得到的值

最大似然估计和最大后验概率估计的区别
MLE和MAP的区别应该是很清楚的了。MAP就是多个作为因子的先验概率P(θ)。或者，也可以反过来，认为MLE是把先验概率P(θ)认为等于1，即认为θ是均匀分布。

批量梯度下降法（BGD）、随机梯度下降法（SGD）和小批量梯度下降法（MBGD）

1.批量梯度下降法是最原始的形式，它是指在每一次迭代时使用所有样本来进行梯度的更新。
注意这里更新时存在一个求和函数，即为对所有样本进行计算处理，可与下文SGD法进行比较
在这里插入图片描述

2随机梯度下降法不同于批量梯度下降，随机梯度下降是每次迭代使用一个样本来对参数进行更新。使得训练速度加快

在这里插入图片描述

为什么SGD收敛速度比BGD要快？：这里我们假设有30W个样本，对于BGD而言，每次迭代需要计算30W个样本才能对参数进行一次更新，需要求得最小值可能需要多次迭代（假设这里是10）；而对于SGD，每次更新参数只需要一个样本，因此若使用这30W个样本进行参数更新，则参数会被更新（迭代）30W次，而这期间，SGD就能保证能够收敛到一个合适的最小值上了。也就是说，在收敛时，BGD计算了 10×30W 次，而SGD只计算了 1×30W 次。

所以函数图形的等高线可能如下所示。
在这里插入图片描述
可能如上徘徊，有时候偶尔会向高处走，但是参数总体趋向于，向着全局最小值附近徘徊。

3小批量梯度下降，是对批量梯度下降以及随机梯度下降的一个折中办法。其思想是：每次迭代 使用batch_size 个样本来对参数进行更新。

在这里插入图片描述
batcha_size的选择带来的影响：
（1）在合理地范围内，增大batch_size的好处：
a. 内存利用率提高了，大矩阵乘法的并行化效率提高。
b. 跑完一次 epoch（全数据集）所需的迭代次数减少，对于相同数据量的处理速度进一步加快。
c. 在一定范围内，一般来说 Batch_Size 越大，其确定的下降方向越准，引起训练震荡越小。
（2）盲目增大batch_size的坏处：
a. 内存利用率提高了，但是内存容量可能撑不住了。
b. 跑完一次 epoch（全数据集）所需的迭代次数减少，要想达到相同的精度，其所花费的时间大大增加了，从而对参数的修正也就显得更加缓慢。
c. Batch_Size 增大到一定程度，其确定的下降方向已经基本不再变化。

最小二乘法
通过正规方程求seta可以不用进行迭代，直接求出合适的参数seta
在这里插入图片描述

以上是迹的常用公式。
在这里插入图片描述
不明白推导的，直接记正规方程组也可。

sklearn.linear_model
sklearn.linear_model提供了很多线性模型，包括岭回归、贝叶斯回归、Lasso等

fit_intercept : 默认为True,是否计算该模型的截距。如果使用中心化的数据，可以考虑设置为False,不考虑截距。注意这里是考虑，一般还是要考虑截距

coef_:训练后的输入端模型系数，如果label有两个，即y值有两列。那么是一个2D的array

fit(X,y,sample_weight=None): X: array, 稀疏矩阵 [n_samples,n_features] y: array [n_samples, n_targets] sample_weight: 权重 array [n_samples] 在版本0.17后添加了sample_weight

predict(X): 预测基于 R^2值
在这里插入图片描述
score：评估

代码实现
生成数据

#生成数据
import numpy as np
#生成随机数
np.random.seed(1234)
x = np.random.rand(500,3)
#构建映射关系，模拟真实的数据待预测值,映射关系为y = 4.2 + 5.7*x1 + 10.8*x2，可自行设置值进行尝试
y = x.dot(np.array([4.2,5.7,10.8]))

sklearn的线性回归

import numpy as np
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt
%matplotlib inline
# 调用模型
lr = LinearRegression(fit_intercept=True)
# 训练模型
lr.fit(x,y)
print("估计的参数值为：%s" %(lr.coef_))
# 计算R平方
print('R2:%s' %(lr.score(x,y)))
# 任意设定变量，预测目标值
x_test = np.array([2,4,5]).reshape(1,-1)
y_hat = lr.predict(x_test)
print("预测值为: %s" %(y_hat))

最小二乘法的实现

class LR_LS():
    def __init__(self):
        self.w = None      
    def fit(self, X, y):
        # 最小二乘法矩阵求解
                self.w = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y)
            def predict(self, X):
        # 用已经拟合的参数值预测新自变量
                y_pred = X.dot(self.w)
                return y_pred
if __name__ == "__main__":
    lr_ls = LR_LS()
    lr_ls.fit(x,y)
    print("估计的参数值：%s" %(lr_ls.w))
    x_test = np.array([2,4,5]).reshape(1,-1)
    print("预测值为: %s" %(lr_ls.predict(x_test)))

梯度下降法

class LR_GD():
    def __init__(self):
        self.w = None     
    def fit(self,X,y,alpha=0.02,loss = 1e-10): # 设定步长为0.002,判断是否收敛的条件为1e-10
        y = y.reshape(-1,1) #重塑y值的维度以便矩阵运算
        [m,d] = np.shape(X) #自变量的维度
        self.w = np.zeros((d)) #将参数的初始值定为0
        tol = 1e5
                while tol > loss:
            h_f = X.dot(self.w).reshape(-1,1) 
            theta = self.w + alpha*np.mean(X*(y - h_f),axis=0) #计算迭代的参数值
            tol = np.sum(np.abs(theta - self.w))
            self.w = theta
                def predict(self, X):
        # 用已经拟合的参数值预测新自变量
        y_pred = X.dot(self.w)
        return y_pred  
if __name__ == "__main__":
    lr_gd = LR_GD()
    lr_gd.fit(x,y)
    print("估计的参数值为：%s" %(lr_gd.w))
    x_test = np.array([2,4,5]).reshape(1,-1)
    print("预测值为：%s" %(lr_gd.predict(x_test)))

你会弹琴吗

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Task1 Linear_regression||datawhale

什么是回归？回归的目的是预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式。说到回归，一般都是指线性回归（linear regression），所以本文里的回归和线性回归代表同一个意思。线性回归意味着可以将输入项分别乘以一些常量，再将结果加起来得到输出。极大似然估计极大似然估计，只是一种概率论在统计学的应用，它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布，但...
复制链接

扫一扫