回归问题

最新推荐文章于 2023-01-09 03:30:00 发布

weixin_45571411

最新推荐文章于 2023-01-09 03:30:00 发布

阅读量223

点赞数

本文链接：https://blog.csdn.net/weixin_45571411/article/details/103549617

版权

机器学习实战打卡第五周

回归问题

一、回归的概念。
回归，一般都是指线性回归（linear regression），线性回归意味着可以将输入项分别乘以一些常量，再将结果加起来得到输出。需要说明的是，存在另一种成为非线性回归的回归模型，该模型不认同上面的做法，比如认为输出可能是输入的乘积。回归的目的是预测数值型的目标值。
二、预测方法。
1 用线性回归找到最佳拟合直线
明确一个目的：找到w，使平方误差和最小。因为我们认为平方误差和越小，说明线性回归拟合效果越好。
例子：在这里插入图片描述
第一列都为1.0，即x0。第二列为x1，即x轴数据。第三列为x2，即y轴数据。首先绘制下数据，看下数据分布。编写代码如下：
`# -- coding:utf-8 --
import matplotlib.pyplot as plt
import numpy as np

def loadDataSet(fileName):
“”"
函数说明:加载数据
Parameters:
fileName - 文件名
Returns:
xArr - x数据集
yArr - y数据集
Website:
http://www.cuijiahua.com/
Modify:
2017-11-12
“”"

numFeat = len(open(fileName).readline().split('\t')) - 1
xArr = []; yArr = []
fr = open(fileName)
for line in fr.readlines():
    lineArr =[]
    curLine = line.strip().split('\t')
    for i in range(numFeat):
        lineArr.append(float(curLine[i]))
    xArr.append(lineArr)
    yArr.append(float(curLine[-1]))
return xArr, yArr

def plotDataSet():
“”"
函数说明:绘制数据集
Parameters:
无
Returns:
无
Website:
http://www.cuijiahua.com/
Modify:
2017-11-12
“”"
xArr, yArr = loadDataSet(‘ex0.txt’) #加载数据集
n = len(xArr) #数据个数
xcord = []; ycord = [] #样本点
for i in range(n):
xcord.append(xArr[i][1]); ycord.append(yArr[i]) #样本点
fig = plt.figure()
ax = fig.add_subplot(111) #添加subplot
ax.scatter(xcord, ycord, s = 20, c = ‘blue’,alpha = .5) #绘制样本点
plt.title(‘DataSet’) #绘制title
plt.xlabel(‘X’)
plt.show()

if name == ‘main’:
plotDataSet()
再通过可视化数据，我们可以看到数据的分布情况。接下来，让我们根据上文中推导的回归系数计算方法，求出回归系数向量，并根据回归系数向量绘制回归曲线，编写代码如下：

# -*- coding:utf-8 -*-
import matplotlib.pyplot as plt
import numpy as np

def loadDataSet(fileName):
    """
    函数说明:加载数据
    Parameters:
        fileName - 文件名
    Returns:
        xArr - x数据集
        yArr - y数据集
    Website:
        http://www.cuijiahua.com/
    Modify:
        2017-11-12
    """
    numFeat = len(open(fileName).readline().split('\t')) - 1
    xArr = []; yArr = []
    fr = open(fileName)
    for line in fr.readlines():
        lineArr =[]
        curLine = line.strip().split('\t')
        for i in range(numFeat):
            lineArr.append(float(curLine[i]))
        xArr.append(lineArr)
        yArr.append(float(curLine[-1]))
    return xArr, yArr

def standRegres(xArr,yArr):
    """
    函数说明:计算回归系数w
    Parameters:
        xArr - x数据集
        yArr - y数据集
    Returns:
        ws - 回归系数
    Website:
        http://www.cuijiahua.com/
    Modify:
        2017-11-12
    """
    xMat = np.mat(xArr); yMat = np.mat(yArr).T
    xTx = xMat.T * xMat                            #根据文中推导的公示计算回归系数
    if np.linalg.det(xTx) == 0.0:
        print("矩阵为奇异矩阵,不能求逆")
        return
    ws = xTx.I * (xMat.T*yMat)
    return ws

def plotRegression():
    """
    函数说明:绘制回归曲线和数据点
    Parameters:
        无
    Returns:
        无
    Website:
        http://www.cuijiahua.com/
    Modify:
        2017-11-12
    """
    xArr, yArr = loadDataSet('ex0.txt')                                    #加载数据集
    ws = standRegres(xArr, yArr)                                        #计算回归系数
    xMat = np.mat(xArr)                                                    #创建xMat矩阵
    yMat = np.mat(yArr)                                                    #创建yMat矩阵
    xCopy = xMat.copy()                                                    #深拷贝xMat矩阵
    xCopy.sort(0)                                                        #排序
    yHat = xCopy * ws                                                     #计算对应的y值
    fig = plt.figure()
    ax = fig.add_subplot(111)                                            #添加subplot
    ax.plot(xCopy[:, 1], yHat, c = 'red')                                #绘制回归曲线
    ax.scatter(xMat[:,1].flatten().A[0], yMat.flatten().A[0], s = 20, c = 'blue',alpha = .5)                #绘制样本点
    plt.title('DataSet')                                                #绘制title
    plt.xlabel('X')
    plt.show()

if __name__ == '__main__':
    plotRegression()
如何判断拟合曲线的拟合效果的如何呢？当然，我们也可以根据自己的经验进行观察。

2 局部加权线性回归
给待预测点附近的每个点赋予一定的权重。与kNN一样，这种算法每次预测均需要事先选取出对应的数据子集。该算法解除回归系数W的形式如下：
![在这里插入图片描述](https://img-blog.csdnimg.cn/20191215155208528.png)

W是一个矩阵，这个公式跟我们上面推导的公式的区别就在于W，它用来给每个店赋予权重。
LWLR使用”核”（与支持向量机中的核类似）来对附近的点赋予更高的权重。核的类型可以自由选择，最常用的核就是高斯核，高斯核对应的权重如下：
![在这里插入图片描述](https://img-blog.csdnimg.cn/20191215155341154.png)
改变K的值可以调节回归效果。同学们可以参考博客上例子来做一次模仿试验。
三、岭回归。
        岭回归即我们所说的L2正则线性回归，在一般的线性回归最小化均方误差的基础上增加了一个参数w的L2范数的罚项，从而最小化罚项残差平方和，就是在普通线性回归的基础上引入单位矩阵。回归系数的计算公式变形如下：
        ![在这里插入图片描述](https://img-blog.csdnimg.cn/20191215155738991.png)
        具体例子同样参考博客，我这里不做赘述。
    链接：https://blog.csdn.net/c406495762/article/details/82967529
    https://blog.csdn.net/c406495762/article/details/78760239
    https://github.com/apachecn/AiLearning/tree/master/docs/ml

weixin_45571411

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
回归问题

机器学习实战打卡第五周回归问题一、回归的概念。回归，一般都是指线性回归（linear regression），线性回归意味着可以将输入项分别乘以一些常量，再将结果加起来得到输出。需要说明的是，存在另一种成为非线性回归的回归模型，该模型不认同上面的做法，比如认为输出可能是输入的乘积。回归的目的是预测数值型的目标值。二、预测方法。1 用线性回归找到最佳拟合直线明确一个目的：找到w，使...
复制链接

扫一扫