自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 PADDLE⑤(终)DDPG算法与代码解析

Actor:定义策略网络。策略网络以提高Q网络输出的Q值为目标,他的损失函数可以定义为loss=-Q;Q网络仍然以优化Q预测与Q目标之间的举例为目标,损失函数与DQN一样。DDPG算法取DQN所长:经验池与双重网络(目标网络),加以添加策略网络以输出确定性动作。DDPG采用Actor-Critic结构,策略网络通过Q网络打分更新网络参数。至于经验池与目标网络的应用:一段时间复制参数过去,其中目标策略网络的参数。,Q网络则通过环境的reward更新网络参数w。algorithm:Q网络与Q目标网络。

2023-04-22 17:58:12 730

原创 PADDLE④-②Policy Gradient算法及代码实现

为了防止在一轮实验中由于前期选择了好的策略,即便后期走了错路依旧能得到正向回馈,从而让他加深这个错误动作的概率,我们可以设有一个正向基准(一般是r的期望值),高于基准才可以得到保留。,而基于值的,比如Q-Learning,它如果在无穷多得动作种计算价值,计算量过于庞大,无法很好完成(pg可以更好完成分幕式与连续性的案例,主要是连续性),但。如果在某一次玩游戏时,机器在看到某个场景时,采取了一个行动,然后总的奖励是正的,那么机器就会自己去增加看到这个场景下做出该行动的概率。,然后基于概率选择动作。

2023-04-19 00:18:36 119

原创 PADDLE④-①随机策略与策略梯度

轨迹:从某一个状态出发,通过策略让智能体输出动作选择及概率,后随机进入下一个环境(不可控),再重复上述操作。代码端经常通过softmax函数来让动作概率的总和变为一。对比:Q学习通过优化Q预测与Q目标的损失函数loss让Q预测不断接近Q目标。一个策略的好坏即他的期望回报大小,近似为所有实验轮的平均回报。一个episode的轨迹称为┏:{s,a,s,a,...}随机策略不会稳定输出某个动作,而会给出每个动作的概率值。(总回报值,=每个轨迹的回报累加)策略梯度则通过最大化一个策略的。Ⅰ:随机策略与确定策略。

2023-04-17 16:50:42 95

原创 PADDLE③-②DQN理论+代码实践解析

在更新过程中,只更新评估网络的权重,而不更新目标网络的权重。在更新一定次数后,再将评估网络的权重复制给目标网络,进而进行下一批更新,这样目标网络也能得到更新。由于在目标网络没有变化的一段时间内回报的估计是相对固定的,因此目标网络的引入增加了学习的稳定性。从存储的角度来看,经验回放可以分为集中式回放和分布式回放:集中式回放:智能体在一个环境中运行,把经验统一存储在经验池中。1.在训练Q网络时,可以打破数据之间的相关性,使得数据满足独立同分布,从而减小参数更新的方差,提高收敛速度。用一个人工神经网络来代替Q。

2023-04-10 19:01:31 499

原创 PADDLE③-①函数逼近与神经网络

表格法:表格过大时会占用很大内存,而且大表格查找数据也不方便。对于未知的数据,表格法无法给出预测,必须经历一次才有记录。优化方法:fluid.optimizer.SGD。损失函数:fluid.layers.square_error_cost。值函数:优点是仅需存储有限的参数,不需要很多储存空间;定义网络:fluid.layers.fc(fc:fully connected)理论上可以逼近任何函数,训练网络间参数以拟合。数据输入:fluid.layers.data。Ⅰ:值函数与表格区别。

2023-04-10 16:32:16 56

原创 PADDLE②-③Q-learning算法。on/off policy差别

它的核心思想是:当我们在特定时间点和状态下去考虑下一步的决策,我们不仅仅要关注当前决策立即产生的Reward,同时也要考虑当前的决策衍生产生未来持续性的Reward。简单来说是希望学习更新过程缓慢一些,不希望某一步的学习跨度过大,从而对整个的学习结果造成比较大的偏差。因为Q(s,a)会更新迭代很多次,不能因为某一次的学习对最终的Q-value产生非常大的影响。进阶方程亦是广泛使用的方程为---------Bellman 方程。策略,而在学习更新Q表的时候使用的评估策略是。Q-Learning是。

2023-04-06 23:53:12 166

原创 PADDLE②-②SARSA算法、TD单步更新

learn函数:更新Q表格:def learn(self, obs, action, reward, next_obs, next_action, done)if np.random.uniform(0, 1) < (1.0 - self.epsilon): #根据table的Q值选动作。一定概率随机探索选取一个动作:action = np.random.choice(self.act_n)np:定义Q表格:self.Q = np.zeros((obs_n, act_n))

2023-04-06 23:24:51 77

原创 MADDPG实验Ubuntu进行流程

model:训练出的智能体,神经网络参数。multiagent:修改环境。train log:实验数据。

2023-04-06 23:01:08 104 1

原创 PADDEL②-①强化、Q表格与马尔可夫决策

(s,a)为动作价值函数。由式(2)可以看出,最优策略就是求解最优动作价值函数,而最优动作价值函数就是指所有策略中动作价值函数的最大值。其过程可表示为对动作价值函数进行迭代直至收敛,此时选择最优的动作价值对应的动作即为最优的策略。此外,每个时刻的状态都对应着一个动作,下一时刻的状态由当前时刻的动作来决定。由公式(1)可以看出,当前的状态价值由当前的奖励与下一时刻的价值决定,这也是贝尔曼方程(Bellman)的基本形式。作用:指导每一步的动作选择,目标导向为未来的总收益,体现为每一步的状态动作价值。

2023-04-06 16:41:29 99 1

原创 ubuntu加载出initramfs如何处理

错误示范:直接搜索照网上修改,例如输入reboot、exit啥的,找bios设置改SATA。错误原因:20bios没有SATA选项。

2023-04-04 09:16:00 181 1

原创 PADDLE①强化学习

飞桨paddle学习

2023-04-03 15:20:10 158 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除