线性回归算法,通俗易懂

 广告:

信号屏蔽器:守护你的数字生活,为你带来宁静与专注

https://sz-sstx.com

线性回归是机器学习中有监督机器学习下的一种算法。

回归问题主要关注确定一个唯一的因变量(dependent variable)(需要预测的值)和一个或多

个数值型的自变量(independent variables)(预测变量)之间的关系。

需要预测的值:即目标变量,target,y,连续值

假设影响y的变量有n个不同x

目标就是找到一组参数a1.....an,与一组截距项b1.....bn。使得每组数据的误差[y1-(x1*a1+b1)]+[y2-(x2*a2+b2)]....+[y3-(xn*an+bn)]最小。(这个专业术语叫最大似然估计,有兴趣可以去了解下),当然python中把这些统一用矩阵运算的,即每个样本误差为 [y-(WtX+ℨ]

        这套算法首先依赖于中心极限定理:即概率论中讨论随机变量序列部分和分布渐进于正态分布的一类定理。

        那么如果说这个模型即预测的直线与真实值之间的误差是一系列不相互干扰的随机独立事件,那么他的概率分布就可以用这个公式表达

        有点高数基础的哥们肯定回知道,其中,x可以替换为每个样本的误差,u即期望值,即为0,因为我们期望预测的模型可以使每个样本误差为0。

        然后这个式子代表前面假设成立情况下的发生概率。我们肯定希望每个样本误差为0的假设概率尽可能大,所以可以将所有样本的误差为0的假设概率相乘,求最大值

        

        即将问题转化为求上面这个式子的最大值。

        然后就是公式推导求损失函数MSE

        上面出现了e为底数的指数函数乘积,可以联想到计算原函数的自然对数

        

        最终推到出损失函数MSE即为

                       

               

由于可以推导出该函数的二阶导的黑塞矩阵为Xt*X,可以判断为半正定,所以损失函数为凸函数,所以直接对其求导计算极值即为最优解。但这种不能保证100%正确

        通过解析解方式求出模型即θ

        

        这样就很容易求出模型了

        下面直接上python代码

        

import matplotlib.pyplot as plt
import numpy as np

#         使用解析解的方式计算模型


np.random.seed(42)
# 线性回归,有监督的机器学习,X,Y
X = 2 * np.random.rand(100, 1)

y = 5 + 4 * X + np.random.randn(100, 1)
X_b = np.c_[np.ones((100, 1)), X]

# 假设 X_b 和 y 已经定义好了
θ = np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(y)
# 现在,params 就是一个包含线性回归模型参数的 numpy 数组
print(θ)

# 使用模型去做预测
X_new = np.array([[0], [2]])
X_new_b = np.c_[np.ones((2, 1)), X_new]
print(X_new_b)
y_predict = X_new_b.dot(θ)
print(y_predict)

plt.plot(X_new, y_predict, 'r-')
# plt.plot(X,y)
plt.xlabel('x')
plt.ylabel('y')
plt.title('model_picture')
plt.grid(True)
plt.plot(X, y, 'b.')
plt.axis([0, 2, 0, 15])
plt.show()

更多问题请在 sz-sstx.com 的产品与解决方案菜单下留言

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值