创建环境:
env = gym.make('CartPole-v0')
返回的这个env其实并非CartPole类本身,而是一个经过包装的环境:
据说gym的多数环境都用TimeLimit(源码)包装了,以限制Epoch,就是step的次数限制,比如限定为200次。所以小车保持平衡200步后,就会失败。
用env.unwrapped可以得到原始的类,原始类想step多久就多久,不会200步后失败:
创建环境:
env = gym.make('CartPole-v0')
返回的这个env其实并非CartPole类本身,而是一个经过包装的环境:
据说gym的多数环境都用TimeLimit(源码)包装了,以限制Epoch,就是step的次数限制,比如限定为200次。所以小车保持平衡200步后,就会失败。
用env.unwrapped可以得到原始的类,原始类想step多久就多久,不会200步后失败: