基于PaddlePaddle的波士顿房价预测


经典的线性回归模型主要用来预测一些存在着线性关系的数据集。回归模型可以理解为:存在一个点集,用一条曲线去拟合它分布的过程。如果拟合曲线是一条直线,则称为线性回归。如果是一条二次曲线,则被称为二次回归。线性回归是回归模型中最简单的一种。 本教程使用 PaddlePaddle建立起一个房价预测模型。

在线性回归中:
(1)假设函数是指,用数学的方法描述自变量和因变量之间的关系,它们之间可以是一个线性函数或非线性函数。 在本次线性回顾模型中,我们的假设函数为Y’= wX+b ,其中,Y’表示模型的预测结果(预测房价),用来和真实的Y区分。模型要学习的参数即:w,b
(2)损失函数是指,用数学的方法衡量假设函数预测结果与真实值之间的误差。这个差距越小预测越准确,而算法的任务就是使这个差距越来越小。 建立模型后,我们需要给模型一个优化目标,使得学到的参数能够让预测值Y’尽可能地接近真实值Y。这个实值通常用来反映模型误差的大小。不同问题场景下采用不同的损失函数。 对于线性模型来讲,最常用的损失函数就是均方误差(Mean Squared Error, MSE)。
(3)优化算法:神经网络的训练就是调整权重(参数)使得损失函数值尽可能得小,在训练过程中,将损失函数值逐渐收敛,得到一组使得神经网络拟合真实模型的权重(参数)。所以,优化算法的最终目标是找到损失函数的最小值。而这个寻找过程就是不断地微调变量w和b的值,一步一步地试出这个最小值。 常见的优化算法有随机梯度下降法(SGD)、Adam算法等等.

import paddle.fluid as fluid  
import paddle
import numpy as np
import os
import matplotlib.pyplot as plt
%matplotlib qt5

Step1:准备数据

(1)uci-housing数据集介绍
数据集共506行,每行14列。前13列用来描述房屋的各种信息,最后一列为该类房屋价格中位数。
PaddlePaddle提供了读取uci_housing训练集和测试集的接口,分别为paddle.dataset.uci_housing.train()paddle.dataset.uci_housing.test()

(2)train_readertest_reader
paddle.reader.shuffle()表示每次缓存BUF_SIZE个数据项,并进行打乱
paddle.batch()表示每BATCH_SIZE组成一个batch

BUF_SIZE=500
BATCH_SIZE=20

# 用于训练的数据提供器,每次从缓存中随机读取批次大小的数据
train_reader = paddle.batch(
    paddle.reader.shuffle(paddle.dataset.uci_housing.train(),buf_size=BUF_SIZE),
    batch_size=BATCH_SIZE)
 # 用于测试的数据提供器,每次从缓存中随机读取批次大小的数据
test_reader = paddle.batch(
    paddle.reader.shuffle(paddle.dataset.uci_housing.test(),buf_size=BUF_SIZE),
    batch_size=BATCH_SIZE)   
# 打印看下数据是什么样的?PaddlePaddle接口提供的数据已经经过归一化等处理
# 用于打印,查看uci_housing数据
train_data = paddle.dataset.uci_housing.train();
sampledata = next(train_data())
print(sampledata)
(array([-0.0405441 ,  0.06636364, -0.32356227, -0.06916996, -0.03435197,
        0.05563625, -0.03475696,  0.02682186, -0.37171335, -0.21419304,
       -0.33569506,  0.10143217, -0.21172912]), array([24.]))

Step2: 网络配置

2.1 网络搭建

对于线性回归来讲,它就是一个从输入到输出的简单的全连接层。
对于波士顿房价数据集,假设属性和房价之间的关系可以被属性间的线性组合描述。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-H6yKruzV-1575729528536)(C:\Users\mi\Desktop\0.png)]

# 定义张量变量x,表示13维的特征值
x = fluid.layers.data(name='x',shape=[13], dtype='float32')
# 定义张量变量y,表示1维的目标值
y = fluid.layers.data(name='y',shape=[1], dtype='float32')
# 定义一个简单的线性网络,连接输入和输出的全连接层;
# input:输入tensor;size: 该层输出单元的数目;act: 激活函数
y_predict = fluid.layers.fc(input=x, size=1, act=None)
2.2 定义损失函数

此处使用均方误差损失函数。
square_error_cost(input,lable):接受输入预测值和目标值,并返回方差估计,即为(y-y_predict)的平方

cost = fluid.layers.square_error_cost(input=y_predict,label=y)  # 求一个batch的损失值
avg_cost = fluid.layers.mean(cost)  # 对损失值求平均值
2.3 定义优化函数
optimizer = fluid.optimizer.SGDOptimizer(learning_rate=0.001)
opts = optimizer.minimize(avg_cost)
test_program = fluid.default_main_program().clone(for_test=True)

在上述模型配置完毕后,得到两个fluid.Programfluid.default_startup_program()fluid.default_main_program()配置完毕了。
参数初始化操作会被写入fluid.default_startup_program()fluid.default_main_program()用于获取默认或全局main program(主程序)。该主程序用于训练和测试模型。fluid.layers 中的所有layer函数可以向 default_main_program 中添加算子和变量。 default_main_programfluid的许多编程接口(API)的Program参数的缺省值。
例如,当用户program没有传入的时候, Executor.run()会默认执行 default_main_program

Step3: 模型训练 and Step4: 模型评估

3.1 创建Executor

首先定义运算场所 fluid.CPUPlace()fluid.CUDAPlace(0)分别表示运算场所为CPUGPU
Executor:接收传入的program,通过run()方法运行program

use_cuda = False  # use_cuda为Flase,表示运算场所为CPU; use_cuda为True, 表示运算场所为GPU; 
place = fluid.CUDAPlace(0) if use_cuda else fluid.CPUPlace()
exe = fluid.Executor(place)  # 创建一个Executor实例exe
exe.run(fluid.default_startup_program())  # Executor的run()方法执行startup_program(),进行参数初始化
[]
3.2 定义输入数据维度

DataFeeder负责将数据提供器(train_reader,test_reader)返回的数据转成一种特殊的数据结构,使其可以输入到Executor中。
feed_list设置向模型输入的变量表或者变量表名

feeder = fluid.DataFeeder(place=place, feed_list=[x,y])  # feed_list负责向模型输入变量表或变量表名
3.3 定义绘制训练过程的损失值变化趋势的方法draw_train_process
iter=0;
iters=[]
train_costs=[]

def draw_train_process(iters,train_costs):
	import matplotlib
	matplotlib.use('Qt5Agg') 
    title="training cost"
    plt.title(title, fontsize=24)
    plt.xlabel("iter", fontsize=14)
    plt.ylabel("cost", fontsize=14)
    plt.plot(iters, train_costs,color='red',label='training cost') 
    plt.legend()
    plt.grid()
    plt.show()
3.4 训练并保存模型

Executor接收传入的program,并根据feed map(输入映射表)fetch_list(结果获取表)program中添加feed operators(数据输入算子)fetch operators(结果获取算子)feed map为该program提供输入数据。fetch_list提供program训练结束后用户预期的变量。

注:enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标。

EPOCH_NUM=50
model_save_dir = "./result/fit_a_line.inference.model"

for pass_id in range(EPOCH_NUM):
    
    # 开始训练并输出最后一个batch的损失值
    train_cost=0
    for batch_id, data in enumerate(train_reader()): # 分批次训练,每批次为20个记录,共21批次
        train_cost = exe.run(program=fluid.default_main_program(), # 运行主程序
                             feed=feeder.feed(data), # 喂入一个batch的训练数据,根据feed_list和data提供的信息,将输入的数据转化成一种特殊的数据结构
                             fetch_list=[avg_cost])  # 求的是这一个批次20个记录的损失函数值的平均值
        iter = iter + BATCH_SIZE
        iters.append(iter) # 每一批次结束记录一个点,共训练50次,每次21批次,所以有50*21=1050个数据点
        train_costs.append(train_cost[0][0]) # 记录每一个数据点的值
    print("Pass:%d\tCost:%.5f" % (pass_id, train_cost[0][0])) # 每训练完一次数据集打印最后一个batch的损失值
        
        
    # 开始预测并输出最后一个batch的损失值
    test_cost = 0
    for batch_id, data in enumerate(test_reader()):
        test_cost = exe.run(program=test_program, # 运行测试程序
                            feed=feeder.feed(data), # 喂入一个batch的测试数据
                            fetch_list=[avg_cost])  # 获取均方误差
    print("Test:%d\tCost:%.5f" % (pass_id, test_cost[0][0])) # 打印最后一个batch的损失值

# 保存模型,如果保存路径不存在就创建
if not os.path.exists(model_save_dir):
    os.makedirs(model_save_dir)
print ('save models to %s' % (model_save_dir))
# 保存训练参数到指定路径中,构建一个专门用预测的program
fluid.io.save_inference_model(model_save_dir,       # 保存推理model的路径
                                  ['x'],            #  推理(inference)需要 feed 的数据
                                  [y_predict],      # 保存推理(inference)结果的 Variables, y_predict = fluid.layers.fc(input=x, size=1, act=None)
                                  exe)              # exe 保存 inference model
Pass:0, Cost:754.62323
Test:0, Cost:352.83466
Pass:1, Cost:800.11633
Test:1, Cost:151.80392
Pass:2, Cost:516.58826
Test:2, Cost:109.99318
Pass:3, Cost:589.85345
Test:3, Cost:324.49304
Pass:4, Cost:363.20880
Test:4, Cost:91.96470
Pass:5, Cost:500.13297
Test:5, Cost:130.04913
Pass:6, Cost:362.53616
Test:6, Cost:38.71670
Pass:7, Cost:341.26740
Test:7, Cost:39.10515
Pass:8, Cost:433.26440
Test:8, Cost:182.58551
Pass:9, Cost:397.78287
Test:9, Cost:92.13775
Pass:10, Cost:343.34650
Test:10, Cost:109.62979
Pass:11, Cost:371.22495
Test:11, Cost:97.94736
Pass:12, Cost:228.02939
Test:12, Cost:79.42414
Pass:13, Cost:349.86865
Test:13, Cost:93.32433
Pass:14, Cost:273.79468
Test:14, Cost:233.64972
Pass:15, Cost:202.08537
Test:15, Cost:126.26233
Pass:16, Cost:220.03560
Test:16, Cost:39.70029
Pass:17, Cost:214.64883
Test:17, Cost:54.95808
Pass:18, Cost:83.75032
Test:18, Cost:106.11470
Pass:19, Cost:253.31924
Test:19, Cost:35.60536
Pass:20, Cost:220.51294
Test:20, Cost:5.55488
Pass:21, Cost:180.28239
Test:21, Cost:36.63982
Pass:22, Cost:128.85757
Test:22, Cost:29.85396
Pass:23, Cost:49.69683
Test:23, Cost:3.74948
Pass:24, Cost:86.33463
Test:24, Cost:45.63614
Pass:25, Cost:71.10847
Test:25, Cost:171.23978
Pass:26, Cost:126.36217
Test:26, Cost:2.09990
Pass:27, Cost:224.92014
Test:27, Cost:58.51671
Pass:28, Cost:113.13776
Test:28, Cost:37.63104
Pass:29, Cost:189.56279
Test:29, Cost:9.73284
Pass:30, Cost:93.86931
Test:30, Cost:118.77667
Pass:31, Cost:97.94823
Test:31, Cost:22.23004
Pass:32, Cost:19.55664
Test:32, Cost:14.98028
Pass:33, Cost:23.80664
Test:33, Cost:14.33418
Pass:34, Cost:41.95360
Test:34, Cost:4.32014
Pass:35, Cost:105.89054
Test:35, Cost:35.52203
Pass:36, Cost:84.43626
Test:36, Cost:1.35533
Pass:37, Cost:158.54741
Test:37, Cost:0.66504
Pass:38, Cost:87.95033
Test:38, Cost:58.92377
Pass:39, Cost:207.50485
Test:39, Cost:14.72218
Pass:40, Cost:136.42813
Test:40, Cost:29.01623
Pass:41, Cost:45.32797
Test:41, Cost:12.09344
Pass:42, Cost:12.63851
Test:42, Cost:115.31290
Pass:43, Cost:14.81207
Test:43, Cost:1.15538
Pass:44, Cost:19.42777
Test:44, Cost:9.11950
Pass:45, Cost:104.91112
Test:45, Cost:5.87156
Pass:46, Cost:58.86282
Test:46, Cost:14.45263
Pass:47, Cost:63.68716
Test:47, Cost:12.04590
Pass:48, Cost:105.72174
Test:48, Cost:4.21864
Pass:49, Cost:71.64302
Test:49, Cost:56.21758
save models to ./result/fit_a_line.inference.model





['save_infer_model/scale_0']
draw_train_process(iters,train_costs)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-o8104ZXp-1575729528538)(file:///C:\Users\mi\AppData\Roaming\Tencent\Users\1103540209\QQ\WinTemp\RichOle\RI@N339ERN_8YKNDFK7ASXW.png)]

print(matplotlib.get_backend())
Qt5Agg

Step5: 模型预测

预测阶段其实和训练阶段类似,但因为主程序都保存下来了,所以只用先建立执行器Executor,同时建立一个用于预测的作用域。

5.1 创建预测用的Executor
infer_exe = fluid.Executor(place)    # 创建推测用的executor
inference_scope = fluid.core.Scope() # Scope指定作用域
5.2 可视化真实值与预测值方法定义
infer_results=[]
groud_truths=[]

# 绘制真实值和预测值对比图
def draw_infer_result(groud_truths,infer_results):
	import matplotlib
	matplotlib.use('Qt5Agg') 
    title='Boston'
    plt.title(title, fontsize=24)
    x = np.arange(1,20) 
    y = x
    plt.plot(x, y)
    plt.xlabel('ground truth', fontsize=14)
    plt.ylabel('infer result', fontsize=14)
    plt.scatter(groud_truths, infer_results,color='green',label='training cost') 
    plt.grid()
    plt.show()

然后在预测作用域中load出模型,进行预测运算,大部分操作都和训练很类似了。唯一不同就是 load 模型这块,其实就是把之前保存下来的参数给 load 出来了,然后用于预测。

5.3 开始预测

通过fluid.io.load_inference_model,预测器会从params_dirname中读取已经训练好的模型,来对从未遇见过的数据进行预测。

with fluid.scope_guard(inference_scope):  # 修改全局/默认作用域(scope), 运行时中的所有变量都将分配给新的scope。
    # 从指定目录中加载 推理model(inference model)
    [inference_program,                               # 推理的program
     feed_target_names,                               # 需要在推理program中提供数据的变量名称->['x']
     fetch_targets] = fluid.io.load_inference_model(  # fetch_targets: 推断结果
                                    model_save_dir,   # model_save_dir:模型加载路径 
                                    infer_exe)        # infer_exe: 预测用executor
    # 取预测数据
    infer_reader = paddle.batch(paddle.dataset.uci_housing.test(),  # 获取uci_housing的测试数据
                          batch_size=200)                           # 从测试数据中读取一个大小为200的batch数据
    # 从test_reader中分割x
    test_data = next(infer_reader()) # test_data中有200条记录 每条是一个元组,0号是特征向量,1号是对应标签
    test_x = np.array([data[0] for data in test_data]).astype("float32")
    test_y= np.array([data[1] for data in test_data]).astype("float32")
    # results是被整体放在一个list中的,形式为:[array([[pred_1],[pred_2],[pred_3],……,[pred_102]])]
    results = infer_exe.run(inference_program,                              # 预测模型
                            feed={feed_target_names[0]: np.array(test_x)},  # 喂入要测试的x值,保存模型时设置的是["x"],shape=[13]
                            fetch_list=fetch_targets)                       # 得到推测结果 
                            
    print("infer results: (House Price)")
    for idx, val in enumerate(results[0]):
        print("%d: %.2f" % (idx, val))
        infer_results.append(val)
    print("ground truth:")
    for idx, val in enumerate(test_y):
        print("%d: %.2f" % (idx, val))
        groud_truths.append(val)
    draw_infer_result(groud_truths,infer_results)
    infer results: (House Price)
    0: 13.50
    1: 13.73
    2: 13.55
    3: 14.74
    4: 13.75
    5: 13.89
    6: 13.27
    7: 13.03
    8: 11.33
    9: 13.45
    10: 10.98
    11: 12.08
    12: 12.62
    13: 12.58
    14: 12.22
    15: 13.17
    16: 14.54
    17: 14.49
    18: 14.75
    19: 12.83
    20: 13.50
    21: 12.30
    22: 13.98
    23: 13.40
    24: 13.42
    25: 12.76
    26: 13.79
    27: 13.60
    28: 14.56
    29: 13.68
    30: 13.51
    31: 12.99
    32: 12.96
    33: 11.98
    34: 11.83
    35: 14.14
    36: 14.18
    37: 14.52
    38: 14.72
    39: 14.54
    40: 13.30
    41: 12.55
    42: 14.34
    43: 14.75
    44: 14.67
    45: 14.21
    46: 13.09
    47: 14.67
    48: 14.87
    49: 15.02
    50: 12.98
    51: 13.35
    52: 12.90
    53: 13.14
    54: 14.55
    55: 15.20
    56: 14.46
    57: 15.20
    58: 15.35
    59: 15.57
    60: 15.85
    61: 15.70
    62: 13.31
    63: 14.48
    64: 15.28
    65: 15.90
    66: 15.47
    67: 15.75
    68: 15.85
    69: 16.17
    70: 14.63
    71: 14.10
    72: 15.08
    73: 13.88
    74: 14.87
    75: 15.42
    76: 16.41
    77: 16.59
    78: 16.71
    79: 16.76
    80: 16.29
    81: 16.54
    82: 15.61
    83: 16.30
    84: 16.16
    85: 15.33
    86: 14.66
    87: 16.18
    88: 16.88
    89: 20.63
    90: 20.78
    91: 20.63
    92: 19.47
    93: 20.19
    94: 20.44
    95: 19.98
    96: 20.07
    97: 21.30
    98: 21.09
    99: 21.34
    100: 21.24
    101: 21.09
    ground truth:
    0: 8.50
    1: 5.00
    2: 11.90
    3: 27.90
    4: 17.20
    5: 27.50
    6: 15.00
    7: 17.20
    8: 17.90
    9: 16.30
    10: 7.00
    11: 7.20
    12: 7.50
    13: 10.40
    14: 8.80
    15: 8.40
    16: 16.70
    17: 14.20
    18: 20.80
    19: 13.40
    20: 11.70
    21: 8.30
    22: 10.20
    23: 10.90
    24: 11.00
    25: 9.50
    26: 14.50
    27: 14.10
    28: 16.10
    29: 14.30
    30: 11.70
    31: 13.40
    32: 9.60
    33: 8.70
    34: 8.40
    35: 12.80
    36: 10.50
    37: 17.10
    38: 18.40
    39: 15.40
    40: 10.80
    41: 11.80
    42: 14.90
    43: 12.60
    44: 14.10
    45: 13.00
    46: 13.40
    47: 15.20
    48: 16.10
    49: 17.80
    50: 14.90
    51: 14.10
    52: 12.70
    53: 13.50
    54: 14.90
    55: 20.00
    56: 16.40
    57: 17.70
    58: 19.50
    59: 20.20
    60: 21.40
    61: 19.90
    62: 19.00
    63: 19.10
    64: 19.10
    65: 20.10
    66: 19.90
    67: 19.60
    68: 23.20
    69: 29.80
    70: 13.80
    71: 13.30
    72: 16.70
    73: 12.00
    74: 14.60
    75: 21.40
    76: 23.00
    77: 23.70
    78: 25.00
    79: 21.80
    80: 20.60
    81: 21.20
    82: 19.10
    83: 20.60
    84: 15.20
    85: 7.00
    86: 8.10
    87: 13.60
    88: 20.10
    89: 21.80
    90: 24.50
    91: 23.10
    92: 19.70
    93: 18.30
    94: 21.20
    95: 17.50
    96: 16.80
    97: 22.40
    98: 20.60
    99: 23.90
    100: 22.00
    101: 11.90

在这里插入图片描述

  • 4
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我是天才很好

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值