Keras学习笔记4——keras.preprocessing

最新推荐文章于 2024-10-11 07:14:54 发布

winter_python

最新推荐文章于 2024-10-11 07:14:54 发布

阅读量4.7k

点赞数 3

分类专栏： python

本文链接：https://blog.csdn.net/winter_python/article/details/108615737

版权

本文详细介绍了Keras中用于序列、文本和图像预处理的工具，包括TimeseriesGenerator、pad_sequences、skipgrams、make_sampling_table以及ImageDataGenerator。重点讲解了如何对时序数据进行填充、采样，以及图像数据增强的各种参数和方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 序列预处理

来源
填充序列pad_sequences

keras.preprocessing.sequence.pad_sequences(sequences, maxlen=None, dtype='int32',
    padding='pre', truncating='pre', value=0.)

将长为nb_samples的序列（标量序列）转化为形如(nb_samples,nb_timesteps)2D numpy array。如果提供了参数maxlen，nb_timesteps=maxlen，否则其值为最长序列的长度。其他短于该长度的序列都会在后部填充0以达到该长度。长于nb_timesteps的序列将会被截断，以使其匹配目标长度。padding和截断发生的位置分别取决于padding和truncating.
返回形如(nb_samples,nb_timesteps)的2D张量
跳字skipgrams
获取采样表make_sampling_table

TimeseriesGenerator

用于生成批量时序数据的实用工具类。

keras.preprocessing.sequence.TimeseriesGenerator(data, targets, length, sampling_rate=1, stride=1, start_index=0, end_index=None, shuffle=False, reverse=False, batch_size=128)

这个类以一系列由相等间隔以及一些时间序列参数（例如步长、历史长度等）汇集的数据点作为输入，以生成用于训练/验证的批次数据。

pad_sequences

将多个序列截断或补齐为相同长度。

keras.preprocessing.sequence.pad_sequences(sequences, maxlen=None, dtype='int32', padding='pre', truncating='pre', value=0.0)

skipgrams

生成 skipgram 词对。

keras.preprocessing.sequence.skipgrams(sequence, vocabulary_size, window_size=4, negative_samples=1.0, shuffle=True, categorical=False, sampling_table=None, seed=None)

该函数将一个单词索引序列（整数列表）转化为以下形式的单词元组：
（单词, 同窗口的单词），标签为 1（正样本）。
（单词, 来自词汇表的随机单词），标签为 0（负样本）。

make_sampling_table

生成一个基于单词的概率采样表。

keras.preprocessing.sequence.make_sampling_table(size, sampling_factor=1e-05)

用来生成 skipgrams 的 sampling_table 参数。sampling_table[i] 是数据集中第 i 个最常见词的采样概率（出于平衡考虑，出现更频繁的词应该被更少地采样）。

2. 文本预处理

3. 图片预处理

来源

ImageDataGenerator 类

通过实时数据增强生成张量图像数据批次。数据将不断循环（按批次）。

keras.preprocessing.image.ImageDataGenerator(featurewise_center=False,  
                                             samplewise_center=False, 
                                             featurewise_std_normalization=False, 
                                             samplewise_std_normalization=False, 
                                             zca_whitening=False, 
                                             zca_e