深度学习TF—4.随机梯度下降

最新推荐文章于 2024-01-24 21:49:46 发布

哎呦-_-不错

最新推荐文章于 2024-01-24 21:49:46 发布

阅读量611

点赞数

分类专栏： # 深度学习-Tensorflow 文章标签：梯度下降

本BLOG上原创文章未经本人许可，不得用于商业用途，转载请注明出处。

本文链接：https://blog.csdn.net/weixin_46649052/article/details/113996602

版权

本文介绍了梯度下降的基本概念，包括梯度、搜索方法和TensorFlow的自动求解。详细讨论了sigmoid、Tanh、ReLU和Leaky ReLU等激活函数及其对梯度下降的影响。同时，讲解了损失函数如MSE和交叉熵，并探讨了感知机的梯度求解。最后，通过函数优化、手写数字识别和Tensorboard可视化实战，展示了随机梯度下降的应用。

摘要由CSDN通过智能技术生成

文章目录

一、梯度下降简介

1.梯度

在这里插入图片描述

2.如何搜索

在这里插入图片描述
举例

3.利用tensorflow自动求解梯度并自动更新参数

在这里插入图片描述

4.案例—二阶导自定义

import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'
import tensorflow as tf

w = tf.Variable(1.0)
b = tf.Variable(2.0)
x = tf.Variable(3.0)

with tf.GradientTape() as t1:
  with tf.GradientTape() as t2:
    y = x * w + b
  dy_dw, dy_db = t2.gradient(y, [w, b])
d2y_dw2 = t1.gradient(dy_dw, w)

print(dy_dw)
print(dy_db)
print(d2y_dw2)

tf.Tensor(3.0, shape=(), dtype=float32)
tf.Tensor(1.0, shape=(), dtype=float32)
None

二、激活函数及梯度

1.sigmoid函数及其梯度

在这里插入图片描述

该激活函数容易出现梯度离散，权值很长时间内未更新
在这里插入图片描述
就是当|z|很大的时候，激活函数的斜率（梯度）很小。因此，在这个区域内，梯度下降算法会运行得比较慢。在实际应用中，应尽量避免使z落在这个区域，使|z|尽可能限定在零值附近，从而提高梯度下降算法运算速度。
在这里插入图片描述

2.Tanh函数及其梯度

在这里插入图片描述

对于隐藏层的激活函数，一般来说，tanh函数要比sigmoid函数表现更好一些。因为tanh函数的取值范围在[-1,+1]之间，隐藏层的输出被限定在[-1,+1]之间，可以看成是在0值附近分布，均值为0。这样从隐藏层到输出层，数据起到了归一化（均值为0）的效果。因此，隐藏层的激活函数，tanh比sigmoid更好一些。
而对于输出层的激活函数，因为二分类问题的输出取值为{0,+1}，所以一般会选择sigmoid作为激活函数。
观察sigmoid函数和tanh函数，我们发现有这样一个问题，就是当|z|很大的时候，激活函数的斜率（梯度）很小。因此，在这个区域内，梯度下降算法会运行得比较慢。在实际应用中，应尽量避免使z落在这个区域，使|z|尽可能限定在零值附近，从而提高梯度下降算法运算速度。

3.ReLU函数及其梯度

在这里插入图片描述

为了弥补sigmoid函数和tanh函数的这个缺陷，就出现了ReLU激活函数。ReLU激活函数在z大于零时梯度始终为1；在z小于零时梯度始终为0；z等于零时的梯度可以当成1也可以当成0，实际应用中并不影响。
对于隐藏层，选择ReLU作为激活函数能够保证z大于零时梯度始终为1，从而提高神经网络梯度下降算法运算速度。但当z小于零时，存在梯度为0的缺点，实际应用中，这个缺点影响不是很大。为了弥补这个缺点，出现了Leaky ReLU激活函数，能够保证z小于零是梯度不为0。

4.Leaky ReLU函数及其梯度

在这里插入图片描述

5.激活函数选择总结

如果是分类问题，输出层的激活函数一般会选择sigmoid函数。
但是隐藏层的激活函数通常不会选择sigmoid函数，tanh函数的表现会比sigmoid函数好一些。实际应用中，通常会会选择使用ReLU或者Leaky ReLU函数，保证梯度下降速度不会太小。
其实，具体选择哪个函数作为激活函数没有一个固定的准确的答案，应该要根据具体实际问题进行验证（validation）。

三、损失函数及梯度

1.MSE—均方误差

tf.losses.MSE 在这里插入图片描述

2.交叉熵损失函数

tf.losses.categorical_crossentropy
在这里插入图片描述
softmax函数求导

**加粗样式**

四、感知机及梯度求解

1.单输出感知机及梯度

在这里插入图片描述

2.多输出感知机及梯度

在这里插入图片描述

3.多层感知机及梯度

在这里插入图片描述

4.多层感知机案例

这里引用Kaggle里面简街市场预测的公开代码

from tensorflow.keras.layers import Input, Dense, BatchNormalization, Dropout, Concatenate, Lambda, GaussianNoise, Activation
from tensorflow.keras.models import Model, Sequential
from tensorflow.keras.losses import BinaryCrossentropy
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.callbacks import EarlyStopping
from tensorflow.keras.layers.experimental.preprocessing import Normalization
import tensorflow as tf
import tensorflow_addons as tfa

import numpy as np
import pandas as pd
from tqdm import tqdm
from random import choices

SEED = 1111

np.random.seed(SEED)

train = pd.read_feather('../input/janestreetsaveasfeature/train.feather')
train = train.query('date > 85').reset_index(drop = True) 
train = train[train['weight'] != 0]

train.fillna(train.mean(),inplace=True)

train['action'] = ((train['resp'].values) > 0).astype(int)


features = [c for c in train.columns if "feature" in c]

f_mean = np.mean(train[features[1:]].values,axis=0)

resp_cols = ['resp_1', 'resp_2', 'resp_3', 'resp', 'resp_4']

X_train = train.loc[:, train.columns.str.contains('feature')]
#y_train = (train.loc[:, 'action'])

y_train = np.stack([(train[c] > 0).astype('int') for c in resp_cols]).T


def create_mlp(
    num_columns, num_labels, hidden_units, dropout_rates, label_smoothing, learning_rate
):

    inp = tf.keras.layers.Input(shape=(num_columns,))
    x = tf.keras.layers.BatchNormalization()(inp)
    x = tf.keras.layers.Dropout(dropout_rates[0])(x)
    for i in range(len(hidden_units)):
        x = tf.keras.layers.Dense(hidden_units[i])(x)
        x = tf.keras.layers.BatchNormalization()(x)
        x = tf.keras.layers.Activation(tf.keras.activations.swish)(x)
        x = tf.keras.layers.Dropout(dropout_rates[i + 1])(x)
    
    x = tf.keras.layers.Dense(num_labels)(x)
    out = tf.keras.layers.Activation("sigmoid")(x)

    model = tf.keras.models.Model(inputs=inp, outputs=out)
    model.compile(
        optimizer=tfa.optimizers.RectifiedAdam(learning_rate=learning_rate),  # 对于学习率的选择更具有鲁棒性
        loss=tf.keras.losses.BinaryCrossentropy(label_smoothing=label_smoothing),
        metrics=tf.keras.metrics.AUC(name="AUC"),
    )

    return model

epochs = 200
batch_size = 4096  # 批处理大小是2^x的倍数
hidden_units = [160, 160, 160]
dropout_rates = [0.2, 0.2, 0.2, 0.2]
label_smoothing = 1e-2
learning_rate = 1e-3

tf.keras.backend.clear_session()
tf.random.set_seed(SEED)
clf = create_mlp(
    len(features), 5,

最低0.47元/天解锁文章

哎呦-_-不错

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
深度学习TF—4.随机梯度下降

文章目录一、梯度下降简介1.梯度2.如何搜索3.利用tensorflow自动求解梯度并自动更新参数4.案例—二阶导自定义二、激活函数及梯度1.sigmoid函数及其梯度2.Tanh函数及其梯度3.ReLU函数及其梯度4.Leaky ReLU函数及其梯度5.激活函数选择总结三、损失函数及梯度1.MSE—均方误差2.交叉熵损失函数四、感知机及梯度求解1.单输出感知机及梯度2.多输出感知机及梯度3.多层感知机及梯度4.多层感知机案例五、随机梯度下降实战1.函数优化实战2.手写数字问题实战3.可视化实战—Tenso
复制链接

扫一扫

专栏目录