RL: 一个可扩展性很好的环境
自定义强化学习环境可以在以下基础上建立,可扩展性很好定义环境:(打印环境信息,数据类型float32)获取环境信息,共7个量(str, int, int, int, int, bool, float)- > (env_name, state_dim, action_dim, action_max, max_step, if_discrete, target_return)每个episode后的环境重置,状态归一化import osimport numpy as npimport gym