- 博客(5)
- 收藏
- 关注
原创 贝尔曼公式
从最开始从第0个 我可以随便猜一个vπ是等于什么,比如说全都是 0 ,然后我通过这个式子,把vk代到右边,左边我就可以计算出来v1,然后我把v1再代到右边,我就可以得到左边的v2 ,我再把v2代到右边,我就可以得到左边的v3 ,这样一直下去,我就会得到这样一个序列{v0,v1,v2....},实际上我们可以证明当k趋向于无穷的时候,vk就收敛到了vπ ,这个vπ就是真实的state value。对于第二个式子,p(s'|s)表示从当前状态s出发,有多个选择,可以跳到不同的s',跳到不同s'的概率。
2024-07-09 17:47:56 651
原创 强化学习基础概念
第1课-基本概念(State,action,policy等)_哔哩哔哩_bilibili第1课-基本概念(Reward,return,MDP等)_哔哩哔哩_bilibiliAccessible 表示可以进入,用白色表示Forbidden 表示不可进入,用黄色表示Target area 表示希望进入的这个领域当中机器人只能在相邻的网格之间移动,不能斜方向移动。
2024-07-08 20:13:21 1012
原创 贝叶斯定理
例如,我们可能认为硬币是公平的,即 p=0.5,或者我们可能认为有轻微的偏向,即 p=0.6。以硬币投掷的例子为例,假设我们有一个先验分布表示硬币正面朝上的可能性,然后我们投掷硬币多次,观测到了一系列结果。先验分布提供了一个起点,而在观察到新数据后,我们使用贝叶斯定理来更新这个分布,得到后验分布,从而更好地理解参数的可能性。这个后验分布将结合先验分布和新的观测数据,提供一个对参数的更精确估计。在先验分布中包含的主观先验知识被观测到的数据所修正,因此后验分布提供了一个更为准确和更新的关于参数的概率分布。
2023-11-22 20:39:34 250
原创 PCA 数据降维
通过保留最重要的特征,可以减少数据的存储空间和计算成本。在生物医学数据分析中,PCA可用于处理基因数据,识别基因表达模式,甄别疾病特征,以及处理成千上万的基因数据点。在信号处理中,PCA可用于分离和减少信号中的噪声,提取出最重要的信号成分,改善信号的质量和可分析性。根据特征值的大小,选择最重要的特征向量,它们对应的特征值较大,代表数据中的主成分。基于特征值的大小,选择最重要的特征向量,它们对应的特征值较大,代表数据中的主成分。通过选取的特征向量构成的矩阵,将原始数据映射到新的低维空间,实现数据的降维。
2023-11-11 19:51:19 264
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人