自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 贝尔曼公式

从最开始从第0个 我可以随便猜一个vπ是等于什么,比如说全都是 0 ,然后我通过这个式子,把vk代到右边,左边我就可以计算出来v1,然后我把v1再代到右边,我就可以得到左边的v2 ,我再把v2代到右边,我就可以得到左边的v3 ,这样一直下去,我就会得到这样一个序列{v0,v1,v2....},实际上我们可以证明当k趋向于无穷的时候,vk就收敛到了vπ ,这个vπ就是真实的state value。对于第二个式子,p(s'|s)表示从当前状态s出发,有多个选择,可以跳到不同的s',跳到不同s'的概率。

2024-07-09 17:47:56 651

原创 强化学习基础概念

第1课-基本概念(State,action,policy等)_哔哩哔哩_bilibili第1课-基本概念(Reward,return,MDP等)_哔哩哔哩_bilibiliAccessible 表示可以进入,用白色表示Forbidden 表示不可进入,用黄色表示Target area 表示希望进入的这个领域当中机器人只能在相邻的网格之间移动,不能斜方向移动。

2024-07-08 20:13:21 1012

原创 迁移学习概念

通过减少源域数据和目标域数据之间的分布差异,进行知识迁移,从而完成学习任务。

2023-12-10 15:06:29 56

原创 贝叶斯定理

例如,我们可能认为硬币是公平的,即 p=0.5,或者我们可能认为有轻微的偏向,即 p=0.6。以硬币投掷的例子为例,假设我们有一个先验分布表示硬币正面朝上的可能性,然后我们投掷硬币多次,观测到了一系列结果。先验分布提供了一个起点,而在观察到新数据后,我们使用贝叶斯定理来更新这个分布,得到后验分布,从而更好地理解参数的可能性。这个后验分布将结合先验分布和新的观测数据,提供一个对参数的更精确估计。在先验分布中包含的主观先验知识被观测到的数据所修正,因此后验分布提供了一个更为准确和更新的关于参数的概率分布。

2023-11-22 20:39:34 250

原创 PCA 数据降维

通过保留最重要的特征,可以减少数据的存储空间和计算成本。在生物医学数据分析中,PCA可用于处理基因数据,识别基因表达模式,甄别疾病特征,以及处理成千上万的基因数据点。在信号处理中,PCA可用于分离和减少信号中的噪声,提取出最重要的信号成分,改善信号的质量和可分析性。根据特征值的大小,选择最重要的特征向量,它们对应的特征值较大,代表数据中的主成分。基于特征值的大小,选择最重要的特征向量,它们对应的特征值较大,代表数据中的主成分。通过选取的特征向量构成的矩阵,将原始数据映射到新的低维空间,实现数据的降维。

2023-11-11 19:51:19 255

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除