- 博客(5)
- 收藏
- 关注
原创 强化学习Q-Learning基本原理
根据下面的最优贝尔曼方程,α是学习速率,γ是折扣因子(越大小鸟越重视以往的经验,越小越重视眼前的利益)。根据“眼前利益”和“记忆中的利益”也就是小鸟记忆中,新位置S'能够给的最大效用值,如果记忆中S'能给到一个较高的效用值,那么这个公式就能提早知道这样一件事,以便下次通过该位置能选择正确的动作。理想状态下,在我们训练完成之后,会得到一个完美的Q-Table,只需要让小鸟根据当前位置(状态)对应的行来选择效用值更大的动作作为当前的动作action,就可以无限的存活下去。接下来最关键的一步就是训练。
2023-12-16 21:20:55 437
原创 我的AI笔记_2(线性回归梯度下降法、参数更新方法)
线性回归中,出现上一节讲的那个公式推导结果,可以把它当成一个“巧合”,因为大多数结果是没有这种“巧合”的,无法求解。那么得到一个目标函数Loss_function(也就是J(θ))我们应该如何求解?这里就引入了“梯度下降”。比如下面山上有个小孩要下山,肯定要往下走(取决于你Loss_function的方向是上升还是下降)正常求“梯度”是“向上”的方向,因此后续需要取梯度的反方向当作我的方向,这也是为什么称作“梯度下降”的原因。
2023-12-02 16:26:19 1263 1
原创 我的AI笔记_1(线性回归原理、误差、似然函数、最小二乘法由来)
我想入门AI,从简单的机器学习开始吧。(这是我学习过程中做的笔记,有见解不同的兄弟姐妹们也欢迎留言)我本人学习过程喜欢看视频而不是看书,针对看视频学习更高效和看书更高效的问题和男朋友争论过很多次,但是个人感觉视频更高效,知识更容易进入我的大脑袋~
2023-11-25 22:09:39 1008
原创 菜鸡自学数据结构笔记1(时间复杂度、空间复杂度)
就是时间复杂度不为O(1),运算次数就必须要随着“什么东西(比如n)”变化,最后这个题目就因为“次数固定,不会变化”所以是O(0)。数据的存储结构要么是顺序,要么是链式,要么是散列,显然ABD正确,C是根据线性表中,线性元素的数据大小来划分的概念,并不属于存储结构(顺序、链式),所以选C。求阶乘低轨这里的空间复杂度是指占帧个数,不是变量个数(这里我有点疑惑,前面说空间复杂度是变量的个数,这里又说是占帧个数,而不是变量个数,为什么呢?注意上面的定义,需要执行次数需要是n的函数!线性结构中的元素是一一对应的;
2023-11-24 20:59:18 535
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人