x234230751-CSDN博客

原创 PADDLE⑤（终）DDPG算法与代码解析

Actor：定义策略网络。策略网络以提高Q网络输出的Q值为目标，他的损失函数可以定义为loss=-Q；Q网络仍然以优化Q预测与Q目标之间的举例为目标，损失函数与DQN一样。DDPG算法取DQN所长：经验池与双重网络（目标网络），加以添加策略网络以输出确定性动作。DDPG采用Actor-Critic结构，策略网络通过Q网络打分更新网络参数。至于经验池与目标网络的应用：一段时间复制参数过去，其中目标策略网络的参数。，Q网络则通过环境的reward更新网络参数w。algorithm：Q网络与Q目标网络。

2023-04-22 17:58:12 730

原创 PADDLE④-②Policy Gradient算法及代码实现

为了防止在一轮实验中由于前期选择了好的策略，即便后期走了错路依旧能得到正向回馈，从而让他加深这个错误动作的概率，我们可以设有一个正向基准（一般是r的期望值），高于基准才可以得到保留。，而基于值的，比如Q-Learning，它如果在无穷多得动作种计算价值，计算量过于庞大，无法很好完成（pg可以更好完成分幕式与连续性的案例，主要是连续性），但。如果在某一次玩游戏时，机器在看到某个场景时，采取了一个行动，然后总的奖励是正的，那么机器就会自己去增加看到这个场景下做出该行动的概率。，然后基于概率选择动作。

2023-04-19 00:18:36 119

原创 PADDLE④-①随机策略与策略梯度

轨迹：从某一个状态出发，通过策略让智能体输出动作选择及概率，后随机进入下一个环境（不可控），再重复上述操作。代码端经常通过softmax函数来让动作概率的总和变为一。对比：Q学习通过优化Q预测与Q目标的损失函数loss让Q预测不断接近Q目标。一个策略的好坏即他的期望回报大小，近似为所有实验轮的平均回报。一个episode的轨迹称为┏：{s，a，s，a，...}随机策略不会稳定输出某个动作，而会给出每个动作的概率值。（总回报值，=每个轨迹的回报累加）策略梯度则通过最大化一个策略的。Ⅰ：随机策略与确定策略。

2023-04-17 16:50:42 95

原创 PADDLE③-②DQN理论+代码实践解析

在更新过程中，只更新评估网络的权重，而不更新目标网络的权重。在更新一定次数后，再将评估网络的权重复制给目标网络，进而进行下一批更新，这样目标网络也能得到更新。由于在目标网络没有变化的一段时间内回报的估计是相对固定的，因此目标网络的引入增加了学习的稳定性。从存储的角度来看，经验回放可以分为集中式回放和分布式回放：集中式回放：智能体在一个环境中运行，把经验统一存储在经验池中。1.在训练Q网络时，可以打破数据之间的相关性，使得数据满足独立同分布，从而减小参数更新的方差，提高收敛速度。用一个人工神经网络来代替Q。

2023-04-10 19:01:31 499

原创 PADDLE③-①函数逼近与神经网络

表格法：表格过大时会占用很大内存，而且大表格查找数据也不方便。对于未知的数据，表格法无法给出预测，必须经历一次才有记录。优化方法：fluid.optimizer.SGD。损失函数：fluid.layers.square_error_cost。值函数：优点是仅需存储有限的参数，不需要很多储存空间；定义网络：fluid.layers.fc（fc：fully connected）理论上可以逼近任何函数，训练网络间参数以拟合。数据输入：fluid.layers.data。Ⅰ：值函数与表格区别。

2023-04-10 16:32:16 56

原创 PADDLE②-③Q-learning算法。on/off policy差别

它的核心思想是：当我们在特定时间点和状态下去考虑下一步的决策，我们不仅仅要关注当前决策立即产生的Reward，同时也要考虑当前的决策衍生产生未来持续性的Reward。简单来说是希望学习更新过程缓慢一些，不希望某一步的学习跨度过大，从而对整个的学习结果造成比较大的偏差。因为Q（s,a）会更新迭代很多次，不能因为某一次的学习对最终的Q-value产生非常大的影响。进阶方程亦是广泛使用的方程为---------Bellman 方程。策略，而在学习更新Q表的时候使用的评估策略是。Q-Learning是。

2023-04-06 23:53:12 166

原创 PADDLE②-②SARSA算法、TD单步更新

learn函数：更新Q表格：def learn(self, obs, action, reward, next_obs, next_action, done)if np.random.uniform(0, 1) < (1.0 - self.epsilon): #根据table的Q值选动作。一定概率随机探索选取一个动作：action = np.random.choice(self.act_n)np：定义Q表格：self.Q = np.zeros((obs_n, act_n))

2023-04-06 23:24:51 77

原创 MADDPG实验Ubuntu进行流程

model：训练出的智能体，神经网络参数。multiagent：修改环境。train log：实验数据。

2023-04-06 23:01:08 104 1

原创 PADDEL②-①强化、Q表格与马尔可夫决策

(s，a)为动作价值函数。由式(2)可以看出，最优策略就是求解最优动作价值函数，而最优动作价值函数就是指所有策略中动作价值函数的最大值。其过程可表示为对动作价值函数进行迭代直至收敛，此时选择最优的动作价值对应的动作即为最优的策略。此外，每个时刻的状态都对应着一个动作，下一时刻的状态由当前时刻的动作来决定。由公式(1)可以看出，当前的状态价值由当前的奖励与下一时刻的价值决定，这也是贝尔曼方程(Bellman)的基本形式。作用：指导每一步的动作选择，目标导向为未来的总收益，体现为每一步的状态动作价值。

2023-04-06 16:41:29 99 1

原创 ubuntu加载出initramfs如何处理

错误示范：直接搜索照网上修改，例如输入reboot、exit啥的，找bios设置改SATA。错误原因：20bios没有SATA选项。

2023-04-04 09:16:00 181 1

原创 PADDLE①强化学习

飞桨paddle学习

2023-04-03 15:20:10 158 2

x234230751的博客