xcpppig-CSDN博客

原创强化学习Q-Learning基本原理

根据下面的最优贝尔曼方程，α是学习速率，γ是折扣因子（越大小鸟越重视以往的经验，越小越重视眼前的利益）。根据“眼前利益”和“记忆中的利益”也就是小鸟记忆中，新位置S'能够给的最大效用值，如果记忆中S'能给到一个较高的效用值，那么这个公式就能提早知道这样一件事，以便下次通过该位置能选择正确的动作。理想状态下，在我们训练完成之后，会得到一个完美的Q-Table，只需要让小鸟根据当前位置（状态）对应的行来选择效用值更大的动作作为当前的动作action，就可以无限的存活下去。接下来最关键的一步就是训练。

2023-12-16 21:20:55 547

原创我的AI笔记_2（线性回归梯度下降法、参数更新方法）

线性回归中，出现上一节讲的那个公式推导结果，可以把它当成一个“巧合”，因为大多数结果是没有这种“巧合”的，无法求解。那么得到一个目标函数Loss_function（也就是J(θ)）我们应该如何求解？这里就引入了“梯度下降”。比如下面山上有个小孩要下山，肯定要往下走（取决于你Loss_function的方向是上升还是下降）正常求“梯度”是“向上”的方向，因此后续需要取梯度的反方向当作我的方向，这也是为什么称作“梯度下降”的原因。

2023-12-02 16:26:19 1376 1

原创我的AI笔记_1（线性回归原理、误差、似然函数、最小二乘法由来）

我想入门AI，从简单的机器学习开始吧。（这是我学习过程中做的笔记，有见解不同的兄弟姐妹们也欢迎留言）我本人学习过程喜欢看视频而不是看书，针对看视频学习更高效和看书更高效的问题和男朋友争论过很多次，但是个人感觉视频更高效，知识更容易进入我的大脑袋~

2023-11-25 22:09:39 1072

原创菜鸡自学数据结构笔记1（时间复杂度、空间复杂度）

就是时间复杂度不为O(1)，运算次数就必须要随着“什么东西（比如n）”变化，最后这个题目就因为“次数固定，不会变化”所以是O(0)。数据的存储结构要么是顺序，要么是链式，要么是散列，显然ABD正确，C是根据线性表中，线性元素的数据大小来划分的概念，并不属于存储结构（顺序、链式），所以选C。求阶乘低轨这里的空间复杂度是指占帧个数，不是变量个数（这里我有点疑惑，前面说空间复杂度是变量的个数，这里又说是占帧个数，而不是变量个数，为什么呢？注意上面的定义，需要执行次数需要是n的函数！线性结构中的元素是一一对应的；

2023-11-24 20:59:18 672 1