【深度学习】打乱数据及keras自定义generator

一、打乱数据

在深度学习中,打乱数据是很重要的。比如,训练集、验证集和测试集需要来自同一分布,所以要打乱数据集再分离,这样就能保证训练集、验证集和测试集的数据分布都是相同的。再比如,制作minibatch的时候,每经过一次epoch都要打乱一次数据集,使每次输入的minibatch分布都不相同,可见打乱数据的重要性。

假如你的内存能装下整个数据集那么,就可以这样:

import numpy as np
#以样本数量生成乱序的list
permutation = list(np.random.permutation(x.shape[0]))
#按照随机生成的顺序重新排列数据集
x = x[permutation,:,:,:]#训练集有4个维度,第一个维度指的是样本数量
y = y[permutation,:]

二、keras自定义generator

当你的内存装不下整个数据集,那么可以把数据集做成.h5文件,然后每次制作minibatch的时候从硬盘中读取。那么就可以自己写个generator。

import h5py
import numpy as np

train_dataset = h5py.File('trainingset_224x224.h5', "r")

def generate_train_from_file(train_dataset, m, batch_size=64):
    #m指的是样本数量
    num_minibatches = int(m/batch_size)
    while 1:
        permutation = list(np.random.permutation(m))
        for i in range(num_minibatches):
            index = permutation[i*batch_size:(i+1)*batch_size] 
            #从.h5文件读取数据时,索引必须是从小到大排列的,所以读取之前把索引排个序
            index.sort()
            minibatches_x = np.array(train_dataset['trainingset_x'][index])
            minibatches_y = np.array(train_dataset['trainingset_y'][index])

            yield minibatches_x, minibatches_y

#这么调用就可以了
model.fit_generator(generator = generate_train_from_file(train_dataset, m, batch_size=batch_size),...)
                    

注意,在函数中需要用while写成死循环,因为每个epoch不会重新调用方法。当函数以yield关键词返回,那么这个函数则是个生成器,生成器指的是当它返回数据之后再次执行时再从这个地方继续执行。

  • 3
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
Keras 是一个高度模块化的深度学习框架,提供了各种预定义的层类型,如全连接层、卷积层、池化层等等。然而,在某些情况下,您可能需要自定义一些层来实现您所需的特定功能。在 Keras 中,您可以通过继承 keras.layers.Layer 类来自定义层。 以下是一个简单的例子,展示如何使用 Keras 自定义层类: ```python import tensorflow as tf from tensorflow import keras class MyLayer(keras.layers.Layer): def __init__(self, output_dim, **kwargs): self.output_dim = output_dim super(MyLayer, self).__init__(**kwargs) def build(self, input_shape): self.kernel = self.add_weight(name='kernel', shape=(input_shape[1], self.output_dim), initializer='uniform', trainable=True) super(MyLayer, self).build(input_shape) def call(self, inputs): return tf.matmul(inputs, self.kernel) def compute_output_shape(self, input_shape): return (input_shape[0], self.output_dim) ``` 在上面的代码中,我们定义了一个名为 MyLayer 的自定义层类。该层包含一个内部实现,用于将输入张量与内部权重矩阵相乘,以产生输出张量。在这个例子中,我们使用了 TensorFlow 的 matmul 函数来实现这个操作。 我们还实现了两个必需的方法:build 和 compute_output_shape。build 方法用于初始化内部权重,并将它们添加到层中。compute_output_shape 方法用于确定输出张量的形状。 要使用自定义层,您可以像使用任何其他层一样使用它。例如: ```python model = keras.Sequential([ MyLayer(10, input_shape=(784,)), keras.layers.Activation('softmax'), ]) ``` 在上面的代码中,我们创建了一个顺序模型,并将 MyLayer 作为第一层添加到模型中。然后,我们添加了一个 softmax 激活层,以便产生最终输出。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值