昱儿是个电子-CSDN博客

原创强化学习7日打卡营-Policy Gradient/DDPG

基于策略梯度方法求解RL value-based vs policy-based Value-based 是基于价值的，属于一种确定性策略在计算时优化Q的值然后把Q网络调到最优以后用间接方式输出action，属于确定性的策略。 policy-based 是基于策略的，属于一种随机策略 policy-based使用神经网络拟合直接输出动作1概率，适用于随机性比较大的环境。 Softmax函数把多个神经元输出，映射到一个（0,1）的区间中去，可以看成是一个概率，概率相加和为1。 Episode幕优

2020-06-26 12:28:50 277

原创强化学习7日打卡营-SASAR/Q-learning/DQN

课程链接： https://aistudio.baidu.com/aistudio/education/group/info/1335 强化学习智能体Agent从环境Environment中学习，根据状态State，执行动作Action,并根据环境反馈受益reward，指导更好的动作。强化学习是一种延时性奖励监督学习——>认知：是什么强化学习——>策略：怎么做 On-policy vs Off-policy On-policy：兼顾探索 Off-policy：更大胆算法库及框架库

2020-06-26 00:08:33 446

转载 Python学习课后题-高阶函数

下面展示一些内联代码片。 // A code block # -*- coding: utf-8 -*-def normalize(name): name=name[0].upper()+name[1:].lower() return nameL1 = ['adam', 'LISA', 'barT']L2 = list(map(normalize, L1))print(L2)

2020-06-11 22:37:49 228

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 强化学习7日打卡营-Policy Gradient/DDPG

原创 强化学习7日打卡营-SASAR/Q-learning/DQN

转载 Python学习课后题-高阶函数

空空如也

空空如也

原创强化学习7日打卡营-Policy Gradient/DDPG

原创强化学习7日打卡营-SASAR/Q-learning/DQN