自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 强化学习7日打卡营-Policy Gradient/DDPG

基于策略梯度方法求解RL value-based vs policy-based Value-based 是基于价值的,属于一种确定性策略 在计算时优化Q的值然后把Q网络调到最优以后用间接方式输出action,属于确定性的策略。 policy-based 是基于策略的,属于一种随机策略 policy-based使用神经网络拟合直接输出动作1概率,适用于随机性比较大的环境。 Softmax函数 把多个神经元输出,映射到一个(0,1)的区间中去,可以看成是一个概率,概率相加和为1。 Episode幕 优

2020-06-26 12:28:50 277

原创 强化学习7日打卡营-SASAR/Q-learning/DQN

课程链接: https://aistudio.baidu.com/aistudio/education/group/info/1335 强化学习 智能体Agent从环境Environment中学习,根据状态State,执行动作Action,并根据环境反馈受益reward,指导更好的动作。强化学习是一种延时性奖励 监督学习——>认知:是什么 强化学习——>策略:怎么做 On-policy vs Off-policy On-policy:兼顾探索 Off-policy:更大胆 算法库及框架库

2020-06-26 00:08:33 446

转载 Python学习课后题-高阶函数

下面展示一些 内联代码片。 // A code block # -*- coding: utf-8 -*-def normalize(name): name=name[0].upper()+name[1:].lower() return nameL1 = ['adam', 'LISA', 'barT']L2 = list(map(normalize, L1))print(L2)

2020-06-11 22:37:49 228

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除