{
"batch_size": 64,
"cache_dataset": true,
"num_workers": 0,
"pad_with_last_sample": true,
"train_rate": 0.7,
"eval_rate": 0.1,
"scaler": "none",
"load_external": false,
"normal_external": false,
"ext_scaler": "none",
"input_window": 12,
"output_window": 12,
"add_time_in_day": false,
"add_day_in_week": false,
"lape_dim": 8
}
-
"batch_size": 64
- 解释: 批次大小,即每次训练迭代时使用的样本数量。在深度学习中,较大的批次大小可能会加速训练但需要更多内存。
-
"cache_dataset": true
- 解释: 是否缓存数据集。如果为
true
,数据集将被加载到内存中,以加快后续的访问速度。
- 解释: 是否缓存数据集。如果为
-
"num_workers": 0
- 解释: 用于数据加载的工作线程数。
0
表示数据加载将在主线程中进行。增加这个值可以加速数据加载过程,特别是在多核 CPU 环境中。
- 解释: 用于数据加载的工作线程数。
-
"pad_with_last_sample": true
- 解释: 是否使用最后一个样本填充。如果数据集的大小不是批次大小的整数倍,最后一个批次将使用最后一个样本填充以达到批次大小。
-
"train_rate": 0.7
- 解释: 训练数据的比例。
0.7
表示 70% 的数据用于训练。
- 解释: 训练数据的比例。
-
"eval_rate": 0.1
- 解释: 验证数据的比例。
0.1
表示 10% 的数据用于验证,剩余 20% 的数据用于测试(假设总比例为 1)。
- 解释: 验证数据的比例。
-
"scaler": "none"
- 解释: 数据缩放方法。
"none"
表示不进行数据缩放。常见的缩放方法包括"minmax"
和"standard"
。
- 解释: 数据缩放方法。
-
"load_external": false
- 解释: 是否加载外部数据。如果为
false
,则不加载外部数据源。
- 解释: 是否加载外部数据。如果为
-
"normal_external": false
- 解释: 是否对外部数据进行标准化。如果为
false
,则不对外部数据进行标准化处理。
- 解释: 是否对外部数据进行标准化。如果为
-
"ext_scaler": "none"
- 解释: 外部数据的缩放方法。
"none"
表示不对外部数据进行缩放处理。
- 解释: 外部数据的缩放方法。
-
"input_window": 12
- 解释: 输入窗口的大小。通常用于时间序列数据,表示使用过去 12 个时间步的数据作为模型的输入。
-
"output_window": 12
- 解释: 输出窗口的大小。表示模型的预测输出跨度 12 个时间步。
-
"add_time_in_day": false
- 解释: 是否添加时间特征(日内时间)。如果为
false
,则不添加。
- 解释: 是否添加时间特征(日内时间)。如果为
-
"add_day_in_week": false
- 解释: 是否添加时间特征(周内天)。如果为
false
,则不添加。
- 解释: 是否添加时间特征(周内天)。如果为
-
"lape_dim": 8
- 解释: 图拉普拉斯特嵌入的维度,通常用于图神经网络(GNN)中。
8
表示嵌入维度为 8。
- 解释: 图拉普拉斯特嵌入的维度,通常用于图神经网络(GNN)中。
最后
这段配置字典包含了机器学习模型训练和数据处理的一系列参数。通过这些参数,用户可以控制训练过程中的许多细节,如批次大小、数据加载方式、数据划分比例、是否应用数据缩放、输入和输出窗口大小等。这种方式使得模型训练过程更加灵活和可控。