Slowfast在modelarts上训练出现数据集相关问题

在modelarts平台开发slowfast算子时出现数据集处理问题

[10/04 14:43:43][INFO] start copy.py: 299: ============== Starting Training ==============
[10/04 14:43:43][INFO] start copy.py: 301: total_epoch=20, steps_per_epoch=101
[WARNING] MD(178,fffba4ff91e0,python):2022-10-04-14:44:30.306.953 [mindspore/ccsrc/minddata/dataset/engine/datasetops/device_queue_op.cc:725] DetectPerBatchTime] Bad performance attention, it takes more than 25 seconds to fetch a batch of data from dataset pipeline, which might result `GetNext` timeout problem. You may test dataset processing performance(with creating dataset iterator) and optimize it.
[ERROR] MD(178,ffff60c791e0,python):2022-10-04-14:45:25.453.944 [mindspore/ccsrc/minddata/dataset/util/task.cc:67] operator()] Task: GeneratorOp(ID:3) - thread(281472305435104) is terminated with err msg: Exception thrown from PyFunc. Exception: Generator worker process timeout.

At:
  /home/ma-user/anaconda/lib/python3.7/site-packages/mindspore/dataset/engine/datasets.py(3841): process

Line of code : 195
File         : /home/jenkins/agent-working-dir/workspace/Compile_Ascend_ARM_CentOS@2/mindspore/mindspore/ccsrc/minddata/dataset/engine/datasetops/source/generator_op.cc

[ERROR] MD(178,ffff60c791e0,python):2022-10-04-14:45:25.454.325 [mindspore/ccsrc/minddata/dataset/util/task_manager.cc:217] InterruptMaster] Task is terminated with err msg(more detail in info level log):Exception thrown from PyFunc. Exception: Generator worker process timeout.

At:
  /home/ma-user/anaconda/lib/python3.7/site-packages/mindspore/dataset/engine/datasets.py(3841): process

Line of code : 195
File         : /home/jenkins/agent-working-dir/workspace/Compile_Ascend_ARM_CentOS@2/mindspore/mindspore/ccsrc/minddata/dataset/engine/datasetops/source/generator_op.cc

[WARNING] CORE(178,ffffaff20170,python):2022-10-04-14:48:20.618.138 [mindspore/core/ir/anf_extends.cc:65] fullname_with_scope] Input 0 of cnode is not a value node, its type is CNode.

可以看到提示处理数据集时超时,但是相关数据集在启智平台上运行时没有问题

启智平台运行时使用的时mindspore1.7版本,但在华为云的modelarts上使用的是mindspore1.5.1版本,是否是因为这一版本问题导致的呢?是否有其余解决办法呢?

****************************************************解答*****************************************************

看错误原因是python function执行时间太长了,要不尝试一下几种方法

1. GeneratorDataset中python_multiprocessing设置为True

2. GeneratorDataset的num_parallel_workers设置大一些(默认值应该是1)

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
训练SlowFast模型使用自己的数据集,您可以按照以下步骤操作: 1. 数据集准备:收集和准备您的训练数据集。确保数据集包含视频文件和对应的标签或注释。 2. 安装SlowFast:根据SlowFast的官方文档,安装SlowFast框架和依赖项。您可以在GitHub上SlowFast的代码库和详细安装说明。 3. 数据预处理:使用SlowFast提供的数据预处理工具,将您的数据集转换为SlowFast模型所需的格式。这可能包括将视频文件分割成帧,提取光流等。 4. 构建配置文件:根据您的数据集训练需求,创建一个配置文件。配置文件包括模型架构、数据路径、超参数等。您可以根据SlowFast的文档进行配置文件的编写。 5. 开始训练:使用命令行工具启动训练过程,并指定配置文件作为参数。SlowFast将开始加载数据、构建模型并在您的数据集上进行训练。 6. 调优和验证:根据训练过程中的日志和指标,您可以进行模型的调优和验证。可以尝试不同的超参数设置、数据增强技术等来提高模型性能。 7. 模型保存和使用:在训练完成后,您可以保存训练好的SlowFast模型。您可以使用这个模型进行视频分类、行为识别等任务。 请注意,SlowFast训练过程可能需要较长的时间和大量的计算资源,特别是在大型数据集训练时。确保您有足够的计算资源和时间来完成训练过程。 这是一个简要的概述,如果您需要更详细的说明,请参考SlowFast的文档和示例代码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值