基于PaddlePaddle的波士顿房价预测

最新推荐文章于 2024-07-01 16:05:12 发布

我是天才很好

最新推荐文章于 2024-07-01 16:05:12 发布

阅读量1.8k

点赞数 4

分类专栏：百度PaddlePaddle

本文链接：https://blog.csdn.net/weixin_43593330/article/details/103440561

版权

百度PaddlePaddle 专栏收录该内容

53 篇文章 55 订阅

订阅专栏

文章目录

经典的线性回归模型主要用来预测一些存在着线性关系的数据集。回归模型可以理解为：存在一个点集，用一条曲线去拟合它分布的过程。如果拟合曲线是一条直线，则称为线性回归。如果是一条二次曲线，则被称为二次回归。线性回归是回归模型中最简单的一种。本教程使用 PaddlePaddle建立起一个房价预测模型。

在线性回归中：
（1）假设函数是指，用数学的方法描述自变量和因变量之间的关系，它们之间可以是一个线性函数或非线性函数。在本次线性回顾模型中，我们的假设函数为Y’= wX+b ，其中，Y’表示模型的预测结果（预测房价），用来和真实的Y区分。模型要学习的参数即：w,b。
（2）损失函数是指，用数学的方法衡量假设函数预测结果与真实值之间的误差。这个差距越小预测越准确，而算法的任务就是使这个差距越来越小。建立模型后，我们需要给模型一个优化目标，使得学到的参数能够让预测值Y’尽可能地接近真实值Y。这个实值通常用来反映模型误差的大小。不同问题场景下采用不同的损失函数。对于线性模型来讲，最常用的损失函数就是均方误差（Mean Squared Error， MSE）。
（3）优化算法：神经网络的训练就是调整权重（参数）使得损失函数值尽可能得小，在训练过程中，将损失函数值逐渐收敛，得到一组使得神经网络拟合真实模型的权重（参数）。所以，优化算法的最终目标是找到损失函数的最小值。而这个寻找过程就是不断地微调变量w和b的值，一步一步地试出这个最小值。常见的优化算法有随机梯度下降法（SGD）、Adam算法等等.

import paddle.fluid as fluid  
import paddle
import numpy as np
import os
import matplotlib.pyplot as plt
%matplotlib qt5

Step1：准备数据

（1）uci-housing数据集介绍
数据集共506行,每行14列。前13列用来描述房屋的各种信息，最后一列为该类房屋价格中位数。
PaddlePaddle提供了读取uci_housing训练集和测试集的接口，分别为paddle.dataset.uci_housing.train()和paddle.dataset.uci_housing.test()。

(2)train_reader和test_reader
paddle.reader.shuffle()表示每次缓存BUF_SIZE个数据项，并进行打乱
paddle.batch()表示每BATCH_SIZE组成一个batch

BUF_SIZE=500
BATCH_SIZE=20

# 用于训练的数据提供器，每次从缓存中随机读取批次大小的数据
train_reader = paddle.batch(
    paddle.reader.shuffle(paddle.dataset.uci_housing.train(),buf_size=BUF_SIZE),
    batch_size=BATCH_SIZE)
 # 用于测试的数据提供器，每次从缓存中随机读取批次大小的数据
test_reader = paddle.batch(
    paddle.reader.shuffle(paddle.dataset.uci_housing.test(),buf_size=BUF_SIZE),
    batch_size=BATCH_SIZE)

# 打印看下数据是什么样的？PaddlePaddle接口提供的数据已经经过归一化等处理
# 用于打印，查看uci_housing数据
train_data = paddle.dataset.uci_housing.train();
sampledata = next(train_data())
print(sampledata)

(array([-0.0405441 ,  0.06636364, -0.32356227, -0.06916996, -0.03435197,
        0.05563625, -0.03475696,  0.02682186, -0.37171335, -0.21419304,
       -0.33569506,  0.10143217, -0.21172912]), array([24.]))

Step2: 网络配置

2.1 网络搭建

对于线性回归来讲，它就是一个从输入到输出的简单的全连接层。
对于波士顿房价数据集，假设属性和房价之间的关系可以被属性间的线性组合描述。
$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-H6yKruzV-1575729528536)(C:\Users\mi\Desktop\0.png)]$

# 定义张量变量x,表示13维的特征值
x = fluid.layers.data(name='x',shape=[13], dtype='float32')
# 定义张量变量y,表示1维的目标值
y = fluid.layers.data(name='y',shape=[1], dtype='float32')
# 定义一个简单的线性网络，连接输入和输出的全连接层；
# input：输入tensor；size: 该层输出单元的数目；act: 激活函数
y_predict = fluid.layers.fc(input=x, size=1, act=None)

2.2 定义损失函数

此处使用均方误差损失函数。
square_error_cost(input,lable):接受输入预测值和目标值，并返回方差估计,即为（y-y_predict）的平方

cost = fluid.layers.square_error_cost(input=y_predict,label=y)  # 求一个batch的损失值
avg_cost = fluid.layers.mean(cost)  # 对损失值求平均值

2.3 定义优化函数

optimizer = fluid.optimizer.SGDOptimizer(learning_rate=0.001)
opts = optimizer.minimize(avg_cost)

test_program = fluid.default_main_program().clone(for_test=True)

在上述模型配置完毕后，得到两个fluid.Program：fluid.default_startup_program() 与fluid.default_main_program()配置完毕了。
参数初始化操作会被写入fluid.default_startup_program()。fluid.default_main_program()用于获取默认或全局main program(主程序)。该主程序用于训练和测试模型。fluid.layers 中的所有layer函数可以向 default_main_program 中添加算子和变量。 default_main_program 是fluid的许多编程接口（API）的Program参数的缺省值。
例如,当用户program没有传入的时候， Executor.run()会默认执行 default_main_program。

Step3: 模型训练 and Step4: 模型评估

3.1 创建Executor

首先定义运算场所 fluid.CPUPlace()和fluid.CUDAPlace(0)分别表示运算场所为CPU和GPU
Executor:接收传入的program，通过run()方法运行program。

use_cuda = False  # use_cuda为Flase，表示运算场所为CPU; use_cuda为True, 表示运算场所为GPU; 
place = fluid.CUDAPlace(0) if use_cuda else fluid.CPUPlace()
exe = fluid.Executor(place)  # 创建一个Executor实例exe
exe.run(fluid.default_startup_program())  # Executor的run()方法执行startup_program(),进行参数初始化

[]

3.2 定义输入数据维度

DataFeeder负责将数据提供器（train_reader,test_reader）返回的数据转成一种特殊的数据结构，使其可以输入到Executor中。
feed_list设置向模型输入的变量表或者变量表名

feeder = fluid.DataFeeder(place=place, feed_list=[x,y])  # feed_list负责向模型输入变量表或变量表名

3.3 定义绘制训练过程的损失值变化趋势的方法draw_train_process

iter=0;
iters=[]
train_costs=[]

def draw_train_process(iters,train_costs):
	import matplotlib
	matplotlib.use('Qt5Agg') 
    title="training cost"
    plt.title(title, fontsize=24)
    plt.xlabel("iter", fontsize=14)
    plt.ylabel("cost", fontsize=14)
    plt.plot(iters, train_costs,color='red',label='training cost') 
    plt.legend()
    plt.grid()
    plt.show()

3.4 训练并保存模型

Executor接收传入的program,并根据feed map(输入映射表)和fetch_list(结果获取表) 向program中添加feed operators(数据输入算子)和fetch operators（结果获取算子)。 feed map为该program提供输入数据。fetch_list提供program训练结束后用户预期的变量。

注：enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，同时列出数据和数据下标。

EPOCH_NUM=50
model_save_dir = "./result/fit_a_line.inference.model"

for pass_id in range(EPOCH_NUM):
    
    # 开始训练并输出最后一个batch的损失值
    train_cost=0
    for batch_id, data in enumerate(train_reader()): # 分批次训练，每批次为20个记录，共21批次
        train_cost = exe.run(program=fluid.default_main_program(), # 运行主程序
                             feed=feeder.feed(data), # 喂入一个batch的训练数据，根据feed_list和data提供的信息，将输入的数据转化成一种特殊的数据结构
                             fetch_list=[avg_cost])  # 求的是这一个批次20个记录的损失函数值的平均值
        iter = iter + BATCH_SIZE
        iters.append(iter) # 每一批次结束记录一个点，共训练50次，每次21批次，所以有50*21=1050个数据点
        train_costs.append(train_cost[0][0]) # 记录每一个数据点的值
    print("Pass:%d\tCost:%.5f" % (pass_id, train_cost[0][0])) # 每训练完一次数据集打印最后一个batch的损失值
        
        
    # 开始预测并输出最后一个batch的损失值
    test_cost = 0
    for batch_id, data in enumerate(test_reader()):
        test_cost = exe.run(program=test_program, # 运行测试程序
                            feed=feeder.feed(data), # 喂入一个batch的测试数据
                            fetch_list=[avg_cost])  # 获取均方误差
    print("Test:%d\tCost:%.5f" % (pass_id, test_cost[0][0])) # 打印最后一个batch的损失值

# 保存模型，如果保存路径不存在就创建
if not os.path.exists(model_save_dir):
    os.makedirs(model_save_dir)
print ('save models to %s' % (model_save_dir))
# 保存训练参数到指定路径中，构建一个专门用预测的program
fluid.io.save_inference_model(model_save_dir,       # 保存推理model的路径
                                  ['x'],            #  推理（inference）需要 feed 的数据
                                  [y_predict],      # 保存推理（inference）结果的 Variables, y_predict = fluid.layers.fc(input=x, size=1, act=None)
                                  exe)              # exe 保存 inference model

Pass:0, Cost:754.62323
Test:0, Cost:352.83466
Pass:1, Cost:800.11633
Test:1, Cost:151.80392
Pass:2, Cost:516.58826
Test:2, Cost:109.99318
Pass:3, Cost:589.85345
Test:3, Cost:324.49304
Pass:4, Cost:363.20880
Test:4, Cost:91.96470
Pass:5, Cost:500.13297
Test:5, Cost:130.04913
Pass:6, Cost:362.53616
Test:6, Cost:38.71670
Pass:7, Cost:341.26740
Test:7, Cost:39.10515
Pass:8, Cost:433.26440
Test:8, Cost:182.58551
Pass:9, Cost:397.78287
Test:9, Cost:92.13775
Pass:10, Cost:343.34650
Test:10, Cost:109.62979
Pass:11, Cost:371.22495
Test:11, Cost:97.94736
Pass:12, Cost:228.02939
Test:12, Cost:79.42414
Pass:13, Cost:349.86865
Test:13, Cost:93.32433
Pass:14, Cost:273.79468
Test:14, Cost:233.64972
Pass:15, Cost:202.08537
Test:15, Cost:126.26233
Pass:16, Cost:220.03560
Test:16, Cost:39.70029
Pass:17, Cost:214.64883
Test:17, Cost:54.95808
Pass:18, Cost:83.75032
Test:18, Cost:106.11470
Pass:19, Cost:253.31924
Test:19, Cost:35.60536
Pass:20, Cost:220.51294
Test:20, Cost:5.55488
Pass:21, Cost:180.28239
Test:21, Cost:36.63982
Pass:22, Cost:128.85757
Test:22, Cost:29.85396
Pass:23, Cost:49.69683
Test:23, Cost:3.74948
Pass:24, Cost:86.33463
Test:24, Cost:45.63614
Pass:25, Cost:71.10847
Test:25, Cost:171.23978
Pass:26, Cost:126.36217
Test:26, Cost:2.09990
Pass:27, Cost:224.92014
Test:27, Cost:58.51671
Pass:28, Cost:113.13776
Test:28, Cost:37.63104
Pass:29, Cost:189.56279
Test:29, Cost:9.73284
Pass:30, Cost:93.86931
Test:30, Cost:118.77667
Pass:31, Cost:97.94823
Test:31, Cost:22.23004
Pass:32, Cost:19.55664
Test:32, Cost:14.98028
Pass:33, Cost:23.80664
Test:33, Cost:14.33418
Pass:34, Cost:41.95360
Test:34, Cost:4.32014
Pass:35, Cost:105.89054
Test:35, Cost:35.52203
Pass:36, Cost:84.43626
Test:36, Cost:1.35533
Pass:37, Cost:158.54741
Test:37, Cost:0.66504
Pass:38, Cost:87.95033
Test:38, Cost:58.92377
Pass:39, Cost:207.50485
Test:39, Cost:14.72218
Pass:40, Cost:136.42813
Test:40, Cost:29.01623
Pass:41, Cost:45.32797
Test:41, Cost:12.09344
Pass:42, Cost:12.63851
Test:42, Cost:115.31290
Pass:43, Cost:14.81207
Test:43, Cost:1.15538
Pass:44, Cost:19.42777
Test:44, Cost:9.11950
Pass:45, Cost:104.91112
Test:45, Cost:5.87156
Pass:46, Cost:58.86282
Test:46, Cost:14.45263
Pass:47, Cost:63.68716
Test:47, Cost:12.04590
Pass:48, Cost:105.72174
Test:48, Cost:4.21864
Pass:49, Cost:71.64302
Test:49, Cost:56.21758
save models to ./result/fit_a_line.inference.model





['save_infer_model/scale_0']

draw_train_process(iters,train_costs)

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-o8104ZXp-1575729528538)(file:///C:\Users\mi\AppData\Roaming\Tencent\Users\1103540209\QQ\WinTemp\RichOle\RI@N339ERN_8YKNDFK7ASXW.png)]$

print(matplotlib.get_backend())

Qt5Agg

Step5: 模型预测

预测阶段其实和训练阶段类似，但因为主程序都保存下来了，所以只用先建立执行器Executor，同时建立一个用于预测的作用域。

5.1 创建预测用的Executor

infer_exe = fluid.Executor(place)    # 创建推测用的executor
inference_scope = fluid.core.Scope() # Scope指定作用域

5.2 可视化真实值与预测值方法定义

infer_results=[]
groud_truths=[]

# 绘制真实值和预测值对比图
def draw_infer_result(groud_truths,infer_results):
	import matplotlib
	matplotlib.use('Qt5Agg') 
    title='Boston'
    plt.title(title, fontsize=24)
    x = np.arange(1,20) 
    y = x
    plt.plot(x, y)
    plt.xlabel('ground truth', fontsize=14)
    plt.ylabel('infer result', fontsize=14)
    plt.scatter(groud_truths, infer_results,color='green',label='training cost') 
    plt.grid()
    plt.show()

然后在预测作用域中load出模型，进行预测运算，大部分操作都和训练很类似了。唯一不同就是 load 模型这块，其实就是把之前保存下来的参数给 load 出来了，然后用于预测。

5.3 开始预测

通过fluid.io.load_inference_model，预测器会从params_dirname中读取已经训练好的模型，来对从未遇见过的数据进行预测。

with fluid.scope_guard(inference_scope):  # 修改全局/默认作用域（scope）, 运行时中的所有变量都将分配给新的scope。
    # 从指定目录中加载 推理model(inference model)
    [inference_program,                               # 推理的program
     feed_target_names,                               # 需要在推理program中提供数据的变量名称->['x']
     fetch_targets] = fluid.io.load_inference_model(  # fetch_targets: 推断结果
                                    model_save_dir,   # model_save_dir:模型加载路径 
                                    infer_exe)        # infer_exe: 预测用executor
    # 取预测数据
    infer_reader = paddle.batch(paddle.dataset.uci_housing.test(),  # 获取uci_housing的测试数据
                          batch_size=200)                           # 从测试数据中读取一个大小为200的batch数据
    # 从test_reader中分割x
    test_data = next(infer_reader()) # test_data中有200条记录 每条是一个元组，0号是特征向量，1号是对应标签
    test_x = np.array([data[0] for data in test_data]).astype("float32")
    test_y= np.array([data[1] for data in test_data]).astype("float32")
    # results是被整体放在一个list中的,形式为：[array([[pred_1],[pred_2],[pred_3],……,[pred_102]])]
    results = infer_exe.run(inference_program,                              # 预测模型
                            feed={feed_target_names[0]: np.array(test_x)},  # 喂入要测试的x值，保存模型时设置的是["x"],shape=[13]
                            fetch_list=fetch_targets)                       # 得到推测结果 
                            
    print("infer results: (House Price)")
    for idx, val in enumerate(results[0]):
        print("%d: %.2f" % (idx, val))
        infer_results.append(val)
    print("ground truth:")
    for idx, val in enumerate(test_y):
        print("%d: %.2f" % (idx, val))
        groud_truths.append(val)
    draw_infer_result(groud_truths,infer_results)

    infer results: (House Price)
    0: 13.50
    1: 13.73
    2: 13.55
    3: 14.74
    4: 13.75
    5: 13.89
    6: 13.27
    7: 13.03
    8: 11.33
    9: 13.45
    10: 10.98
    11: 12.08
    12: 12.62
    13: 12.58
    14: 12.22
    15: 13.17
    16: 14.54
    17: 14.49
    18: 14.75
    19: 12.83
    20: 13.50
    21: 12.30
    22: 13.98
    23: 13.40
    24: 13.42
    25: 12.76
    26: 13.79
    27: 13.60
    28: 14.56
    29: 13.68
    30: 13.51
    31: 12.99
    32: 12.96
    33: 11.98
    34: 11.83
    35: 14.14
    36: 14.18
    37: 14.52
    38: 14.72
    39: 14.54
    40: 13.30
    41: 12.55
    42: 14.34
    43: 14.75
    44: 14.67
    45: 14.21
    46: 13.09
    47: 14.67
    48: 14.87
    49: 15.02
    50: 12.98
    51: 13.35
    52: 12.90
    53: 13.14
    54: 14.55
    55: 15.20
    56: 14.46
    57: 15.20
    58: 15.35
    59: 15.57
    60: 15.85
    61: 15.70
    62: 13.31
    63: 14.48
    64: 15.28
    65: 15.90
    66: 15.47
    67: 15.75
    68: 15.85
    69: 16.17
    70: 14.63
    71: 14.10
    72: 15.08
    73: 13.88
    74: 14.87
    75: 15.42
    76: 16.41
    77: 16.59
    78: 16.71
    79: 16.76
    80: 16.29
    81: 16.54
    82: 15.61
    83: 16.30
    84: 16.16
    85: 15.33
    86: 14.66
    87: 16.18
    88: 16.88
    89: 20.63
    90: 20.78
    91: 20.63
    92: 19.47
    93: 20.19
    94: 20.44
    95: 19.98
    96: 20.07
    97: 21.30
    98: 21.09
    99: 21.34
    100: 21.24
    101: 21.09
    ground truth:
    0: 8.50
    1: 5.00
    2: 11.90
    3: 27.90
    4: 17.20
    5: 27.50
    6: 15.00
    7: 17.20
    8: 17.90
    9: 16.30
    10: 7.00
    11: 7.20
    12: 7.50
    13: 10.40
    14: 8.80
    15: 8.40
    16: 16.70
    17: 14.20
    18: 20.80
    19: 13.40
    20: 11.70
    21: 8.30
    22: 10.20
    23: 10.90
    24: 11.00
    25: 9.50
    26: 14.50
    27: 14.10
    28: 16.10
    29: 14.30
    30: 11.70
    31: 13.40
    32: 9.60
    33: 8.70
    34: 8.40
    35: 12.80
    36: 10.50
    37: 17.10
    38: 18.40
    39: 15.40
    40: 10.80
    41: 11.80
    42: 14.90
    43: 12.60
    44: 14.10
    45: 13.00
    46: 13.40
    47: 15.20
    48: 16.10
    49: 17.80
    50: 14.90
    51: 14.10
    52: 12.70
    53: 13.50
    54: 14.90
    55: 20.00
    56: 16.40
    57: 17.70
    58: 19.50
    59: 20.20
    60: 21.40
    61: 19.90
    62: 19.00
    63: 19.10
    64: 19.10
    65: 20.10
    66: 19.90
    67: 19.60
    68: 23.20
    69: 29.80
    70: 13.80
    71: 13.30
    72: 16.70
    73: 12.00
    74: 14.60
    75: 21.40
    76: 23.00
    77: 23.70
    78: 25.00
    79: 21.80
    80: 20.60
    81: 21.20
    82: 19.10
    83: 20.60
    84: 15.20
    85: 7.00
    86: 8.10
    87: 13.60
    88: 20.10
    89: 21.80
    90: 24.50
    91: 23.10
    92: 19.70
    93: 18.30
    94: 21.20
    95: 17.50
    96: 16.80
    97: 22.40
    98: 20.60
    99: 23.90
    100: 22.00
    101: 11.90

在这里插入图片描述