![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 92
RochelimitYX
这个作者很懒,什么都没留下…
展开
-
Deep Q-learning
将Q-learning算法的基础引入了深度神经网络来近似动作价值函数Qsa。Qstat←QstatαrtγQ′st1a−Qstat)]1其中ytrtγmaxaQ′st1a是期望Q值,Qstat是当前迭代的实际值,α是学习率(超参数);DQN中引入神经网络来表示Q表格,实际上也就多了网络参数θ;Qsiai;θi←Q。原创 2024-06-29 01:28:55 · 965 阅读 · 0 评论 -
深度学习基础
此外,还有一种折中的方法,称为小批量梯度下降(Mini-Batch Gradient Descent),它在每次更新时使用一小部分(批量)训练样本的数据进行计算梯度和参数更新。这种方法在实际应用中非常常见,因为它综合了批量梯度下降和随机梯度下降的优点,既具有相对稳定的收敛性,又具有较快的更新速度。在批量梯度下降中,每次更新模型参数时,都使用整个训练数据集的数据进行计算梯度和参数更新。但对于大型数据集而言,计算整个数据集的梯度可能会很慢,因此批量梯度下降的收敛速度较慢。传统的预测模型(决策树,贝叶斯)原创 2024-06-25 00:42:50 · 971 阅读 · 0 评论 -
Reinforcement Learning(一)
阐述了RL的基本概念与基本流程,给出了RL作为机器学习的一种,其特别的机器学习范式,给出了策略梯度算法的推导原创 2023-11-05 18:14:16 · 111 阅读 · 1 评论