自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 强化学习笔记(3)马尔可夫过程

Q_learning函数作用为更新Q_LEARING的值,如果下一个状态时终点,q_target就输出奖励的值,否则更新Q_TABLE表格,即有:GAMMA * q_table.iloc[next_state, :].max(): 计算折扣后的未来可能奖励的最大值。q_table.iloc[next_state, :] 选择下一个状态的所有可能动作的 Q 值,.max() 从中选择最大值表示最优策略下的未来奖励。q_table.loc[state, action]: 当前状态和选择的动作对应的 Q 值。

2024-04-28 19:05:46 560

原创 k臂赌博机问题学习笔记以及代码运行

非平稳性是强化学习中遇到的最常见的状况,即使每一个单独的子任务都会随着学习的平稳推进而有所变化。UCB算法在10臂测试平台上的平均表现,如图所示,,除了刚开始的k步随机选择尚未尝试过的动作外,在一般情况下UCB算法比ε贪心算法更好。贪心算法的对比,贪心算法在最初增长的略微快一些,但是随后稳定在一个较低的水平。含有收益基准项和不含有收益基准项的梯度赌博算法在10臂测试平台上的平均表现。为了找到最优的动作需要更多次的试探。乐观初始值在平稳的问题当中非常有效,但它远非鼓励试探的普通有用的方法。

2024-04-28 18:54:00 265

原创 强化学习学习笔记(1)理论+代码运行部分 4.25-4.26

这里的公式 𝑃𝑠𝑠′𝑎=𝑃[𝑆𝑡+1=𝑠′∣𝑆𝑡=𝑠,𝐴𝑡=𝑎]Pss′a​=P[St+1​=s′∣St​=s,At​=a] 表明了“如果代理在状态 s 时采取行动 a,那么它将以多大概率转移到状态 s′。首先,这段代码初始化了网格世界的状态,并定义了行动空间的大小和网格的行列数,随后使用你randomint函数随机生成转移矩阵,奖励矩阵,状态矩阵,以及玩家的初始位置。智能体的状态 S是智能体的内部表征,是用来给智能体提供下一步行动的信息,也是可以用强化学习算法来实现的信息,函数表示为Sta=f(Ht)

2024-04-28 11:30:28 1078

原创 基于随机森林法的预测类型问题

本文选取的是2022年五一杯数学建模b题,一道预测问题,通过可视化方法对数据进行绘制,选用随机森林模型进行预测。填充数据之后得到的结果如图所示。

2024-04-27 17:03:56 228

原创 8086汇编语言---查找表

0~9 的 ASCII 码为 30H~39H,而 A~F 的 ASCII 码为 41H~46H,这样就可以将 0~9 与 A~F 对 应的 ASCII 码保存在一个数据表格中。2、此时AL,AH都存有HEX的值,将AL和F0H相与,然后就可以只保留AL的高四位,随后SHR使得高四位移动到低四位的位置,高位补0。5、随后将储存好的AH的内容重新移入AL,使得AL当中依然保留HEX的值,然后重新实现以上查找表的功能。1、备份原始的需要转换的十六进制数HEX值到AL AH当中,防止HEX丢失。

2024-04-21 17:08:36 172

原创 8086汇编语言-运算类

问题分析:该问题要求是双精度(2 个 16 位,即 32 位)加法运算,编程时可利用累加器 AX,先求低 16 位的和,并将运算结果存入低地址存储单元,然后求高 16 位的和,将结果存入高地址存储单 元中。由于低 16 运算后可能向高位产生进位,因此高 16 位运算时使用 ADC 指令,这样在低 16 位相加运算有进位时,高位相加会加上 CF 中的 1。3. 乘法运算 实现十进制数的乘法运算,被乘数与乘数均以 BCD 码的形式存放在内存中,乘数为 1 位, 被乘数为 5 位,结果为 6 位。

2024-04-21 11:32:59 307 1

原创 一道简单的层次分析法题目

权重向量: [0.619352 0.284228 0.0964194 ]一致性指数 CI: 0.068676。一致性比率 CR: 0.076307。一致性指数 CI: 0.004604。一致性比率 CR: 0.007939。一致性指数 CI: 0.061158。一致性比率 CR: 0.105445。一致性指数 CI: 0.043345。一致性比率 CR: 0.074734。一致性指数 CI: 0.032909。一致性比率 CR: 0.056740。最大特征值: 4.206029。

2024-04-20 11:27:17 264 1

原创 一个基本的线性规划问题

这个问题可以被看成是一个线性规划模型,因为他原题中给出了A和B的采购价格,为收入;题目中给出了A的市场价格,是额外购买A所需要的成本,为支出,那么目标函数就显而易见。虽然在实际应用中,如原油购买量通常为整数(即吨),但在模型计算中可以假设这些变量是连续的,从而允许使用线性规划技术找到最优解。很显然,这个问题的目标函数为成本减去利益,并且变量*价格遵循这样简单的乘法关系,因此可以看作是一个线性的目标函数。如图所示,可知,5000,为最值,并且,此时x12值为1500 x22值为1000,所以购买。

2024-04-18 23:36:52 1473

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除