机器学习之数据预处理

最新推荐文章于 2024-05-10 09:22:41 发布

冬、不眠的夜

最新推荐文章于 2024-05-10 09:22:41 发布

阅读量249

点赞数

本文链接：https://blog.csdn.net/zsx2541577860/article/details/96177711

版权

数据预处理方法：
均值移除
范围缩放
二值化
归一化
独热编码
标签编码

直接调用API接口进行处理

线性回归

输入		输出
0.5      5.0
0.6      5.5
0.8      6.0
1.1      6.8
1.4      7.0
...
y = f(x)

预测函数：y = w₀+w₁x
x: 输入
y: 输出
w₀和w₁: 模型参数

所谓模型训练，就是根据已知的x和y，找到最佳的模型参数w₀ 和 w₁，尽可能精确地描述出输入和输出的关系。

5.0 = w₀ + w₁ × 0.5
5.5 = w₀ + w₁ × 0.6

单样本误差：

根据预测函数求出输入为x时的预测值：y’ = w₀ + w₁x，单样本误差为1/2(y’ - y)²。

总样本误差：

把所有单样本误差相加即是总样本误差：1/2 Σ(y’ - y)²

损失函数：

loss = 1/2 Σ(w₀ + w₁x - y)²

所以损失函数就是总样本误差关于模型参数的函数，该函数属于三维数学模型，即需要找到一组w₀ w₁使得loss取极小值。

案例：画图模拟梯度下降的过程

整理训练集数据，自定义梯度下降算法规则，求出w₀ ， w₁ ，绘制回归线。

import numpy as np
import matplotlib.pyplot as mp

train_x = np.array([0.5, 0.6, 0.8, 1.1, 1.4])
train_y = np.array([5.0, 5.5, 6.0, 6.8, 7.0])

times = 1000	# 定义梯度下降次数
lrate = 0.01	# 记录每次梯度下降参数变化率
w0, w1 = [1], [1]
for i in range(1, times + 1):
	# d0是损失函数在w0方向上的偏导数
    d0 = (w0[-1] + w1[-1] * train_x - train_y).sum()
    # d1是损失函数在w1方向上的偏导数
    d1 = (((w0[-1] + w1[-1] * train_x) - train_y) * train_x).sum()
    # 让w0   w1不断更新  
    w0.append(w0[-1] - lrate * d0)
    w1.append(w1[-1] - lrate * d1)

pred_train_y = w0[-1] + w1[-1] * train_x
mp.figure('Linear Regression', facecolor='lightgray')
mp.title('Linear Regression', fontsize=20)
mp.xlabel('x', fontsize=14)
mp.ylabel('y', fontsize=14)
mp.tick_params(labelsize=10)
mp.grid(linestyle=':')
mp.scatter(train_x, train_y, marker='s', c='dodgerblue', alpha=0.5, s=80, label='Training')
mp.plot(train_x, pred_train_y, '--', c='limegreen', label='Regression', linewidth=1)
mp.legend()
mp.show()

冬、不眠的夜

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习之数据预处理

数据预处理方法：均值移除范围缩放二值化归一化独热编码标签编码直接调用API接口进行处理线性回归输入输出0.5 5.00.6 5.50.8 6.01.1 6.81.4 7.0...y = f(x)预测函数：y = w0+w1xx: 输入y: 输出w0和w1: 模型参数所谓模型训练，就是根据已知的x和y，...
复制链接

扫一扫