- 博客(8)
- 收藏
- 关注
原创 强化学习笔记(3)马尔可夫过程
Q_learning函数作用为更新Q_LEARING的值,如果下一个状态时终点,q_target就输出奖励的值,否则更新Q_TABLE表格,即有:GAMMA * q_table.iloc[next_state, :].max(): 计算折扣后的未来可能奖励的最大值。q_table.iloc[next_state, :] 选择下一个状态的所有可能动作的 Q 值,.max() 从中选择最大值表示最优策略下的未来奖励。q_table.loc[state, action]: 当前状态和选择的动作对应的 Q 值。
2024-04-28 19:05:46 586
原创 k臂赌博机问题学习笔记以及代码运行
非平稳性是强化学习中遇到的最常见的状况,即使每一个单独的子任务都会随着学习的平稳推进而有所变化。UCB算法在10臂测试平台上的平均表现,如图所示,,除了刚开始的k步随机选择尚未尝试过的动作外,在一般情况下UCB算法比ε贪心算法更好。贪心算法的对比,贪心算法在最初增长的略微快一些,但是随后稳定在一个较低的水平。含有收益基准项和不含有收益基准项的梯度赌博算法在10臂测试平台上的平均表现。为了找到最优的动作需要更多次的试探。乐观初始值在平稳的问题当中非常有效,但它远非鼓励试探的普通有用的方法。
2024-04-28 18:54:00 275
原创 强化学习学习笔记(1)理论+代码运行部分 4.25-4.26
这里的公式 𝑃𝑠𝑠′𝑎=𝑃[𝑆𝑡+1=𝑠′∣𝑆𝑡=𝑠,𝐴𝑡=𝑎]Pss′a=P[St+1=s′∣St=s,At=a] 表明了“如果代理在状态 s 时采取行动 a,那么它将以多大概率转移到状态 s′。首先,这段代码初始化了网格世界的状态,并定义了行动空间的大小和网格的行列数,随后使用你randomint函数随机生成转移矩阵,奖励矩阵,状态矩阵,以及玩家的初始位置。智能体的状态 S是智能体的内部表征,是用来给智能体提供下一步行动的信息,也是可以用强化学习算法来实现的信息,函数表示为Sta=f(Ht)
2024-04-28 11:30:28 1090
原创 基于随机森林法的预测类型问题
本文选取的是2022年五一杯数学建模b题,一道预测问题,通过可视化方法对数据进行绘制,选用随机森林模型进行预测。填充数据之后得到的结果如图所示。
2024-04-27 17:03:56 280
原创 8086汇编语言---查找表
0~9 的 ASCII 码为 30H~39H,而 A~F 的 ASCII 码为 41H~46H,这样就可以将 0~9 与 A~F 对 应的 ASCII 码保存在一个数据表格中。2、此时AL,AH都存有HEX的值,将AL和F0H相与,然后就可以只保留AL的高四位,随后SHR使得高四位移动到低四位的位置,高位补0。5、随后将储存好的AH的内容重新移入AL,使得AL当中依然保留HEX的值,然后重新实现以上查找表的功能。1、备份原始的需要转换的十六进制数HEX值到AL AH当中,防止HEX丢失。
2024-04-21 17:08:36 197
原创 8086汇编语言-运算类
问题分析:该问题要求是双精度(2 个 16 位,即 32 位)加法运算,编程时可利用累加器 AX,先求低 16 位的和,并将运算结果存入低地址存储单元,然后求高 16 位的和,将结果存入高地址存储单 元中。由于低 16 运算后可能向高位产生进位,因此高 16 位运算时使用 ADC 指令,这样在低 16 位相加运算有进位时,高位相加会加上 CF 中的 1。3. 乘法运算 实现十进制数的乘法运算,被乘数与乘数均以 BCD 码的形式存放在内存中,乘数为 1 位, 被乘数为 5 位,结果为 6 位。
2024-04-21 11:32:59 322 1
原创 一道简单的层次分析法题目
权重向量: [0.619352 0.284228 0.0964194 ]一致性指数 CI: 0.068676。一致性比率 CR: 0.076307。一致性指数 CI: 0.004604。一致性比率 CR: 0.007939。一致性指数 CI: 0.061158。一致性比率 CR: 0.105445。一致性指数 CI: 0.043345。一致性比率 CR: 0.074734。一致性指数 CI: 0.032909。一致性比率 CR: 0.056740。最大特征值: 4.206029。
2024-04-20 11:27:17 281 1
原创 一个基本的线性规划问题
这个问题可以被看成是一个线性规划模型,因为他原题中给出了A和B的采购价格,为收入;题目中给出了A的市场价格,是额外购买A所需要的成本,为支出,那么目标函数就显而易见。虽然在实际应用中,如原油购买量通常为整数(即吨),但在模型计算中可以假设这些变量是连续的,从而允许使用线性规划技术找到最优解。很显然,这个问题的目标函数为成本减去利益,并且变量*价格遵循这样简单的乘法关系,因此可以看作是一个线性的目标函数。如图所示,可知,5000,为最值,并且,此时x12值为1500 x22值为1000,所以购买。
2024-04-18 23:36:52 1555
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人