欧几里得空间里的温柔-CSDN博客

原创强化学习笔记（3）马尔可夫过程

Q_learning函数作用为更新Q_LEARING的值，如果下一个状态时终点，q_target就输出奖励的值，否则更新Q_TABLE表格，即有：GAMMA * q_table.iloc[next_state, :].max(): 计算折扣后的未来可能奖励的最大值。q_table.iloc[next_state, :] 选择下一个状态的所有可能动作的 Q 值，.max() 从中选择最大值表示最优策略下的未来奖励。q_table.loc[state, action]: 当前状态和选择的动作对应的 Q 值。

2024-04-28 19:05:46 586

原创 k臂赌博机问题学习笔记以及代码运行

非平稳性是强化学习中遇到的最常见的状况，即使每一个单独的子任务都会随着学习的平稳推进而有所变化。UCB算法在10臂测试平台上的平均表现，如图所示，，除了刚开始的k步随机选择尚未尝试过的动作外，在一般情况下UCB算法比ε贪心算法更好。贪心算法的对比，贪心算法在最初增长的略微快一些，但是随后稳定在一个较低的水平。含有收益基准项和不含有收益基准项的梯度赌博算法在10臂测试平台上的平均表现。为了找到最优的动作需要更多次的试探。乐观初始值在平稳的问题当中非常有效，但它远非鼓励试探的普通有用的方法。

2024-04-28 18:54:00 275

原创强化学习学习笔记（1）理论+代码运行部分 4.25-4.26

这里的公式 𝑃𝑠𝑠′𝑎=𝑃[𝑆𝑡+1=𝑠′∣𝑆𝑡=𝑠,𝐴𝑡=𝑎]Pss′a=P[St+1=s′∣St=s,At=a] 表明了“如果代理在状态 s 时采取行动 a，那么它将以多大概率转移到状态 s′。首先，这段代码初始化了网格世界的状态，并定义了行动空间的大小和网格的行列数，随后使用你randomint函数随机生成转移矩阵，奖励矩阵，状态矩阵，以及玩家的初始位置。智能体的状态 S是智能体的内部表征，是用来给智能体提供下一步行动的信息，也是可以用强化学习算法来实现的信息，函数表示为Sta=f(Ht)

2024-04-28 11:30:28 1090

原创基于随机森林法的预测类型问题

本文选取的是2022年五一杯数学建模b题，一道预测问题，通过可视化方法对数据进行绘制，选用随机森林模型进行预测。填充数据之后得到的结果如图所示。

2024-04-27 17:03:56 280

原创 8086汇编语言---查找表

0～9 的 ASCII 码为 30H～39H，而 A～F 的 ASCII 码为 41H～46H，这样就可以将 0～9 与 A～F 对应的 ASCII 码保存在一个数据表格中。2、此时AL,AH都存有HEX的值，将AL和F0H相与，然后就可以只保留AL的高四位，随后SHR使得高四位移动到低四位的位置，高位补0。5、随后将储存好的AH的内容重新移入AL，使得AL当中依然保留HEX的值，然后重新实现以上查找表的功能。1、备份原始的需要转换的十六进制数HEX值到AL AH当中，防止HEX丢失。

2024-04-21 17:08:36 197

原创 8086汇编语言-运算类

问题分析：该问题要求是双精度（2 个 16 位，即 32 位）加法运算，编程时可利用累加器 AX，先求低 16 位的和，并将运算结果存入低地址存储单元，然后求高 16 位的和，将结果存入高地址存储单元中。由于低 16 运算后可能向高位产生进位，因此高 16 位运算时使用 ADC 指令，这样在低 16 位相加运算有进位时，高位相加会加上 CF 中的 1。3. 乘法运算实现十进制数的乘法运算，被乘数与乘数均以 BCD 码的形式存放在内存中，乘数为 1 位，被乘数为 5 位，结果为 6 位。

2024-04-21 11:32:59 322 1

原创一道简单的层次分析法题目

权重向量: [0.619352 0.284228 0.0964194 ]一致性指数 CI: 0.068676。一致性比率 CR: 0.076307。一致性指数 CI: 0.004604。一致性比率 CR: 0.007939。一致性指数 CI: 0.061158。一致性比率 CR: 0.105445。一致性指数 CI: 0.043345。一致性比率 CR: 0.074734。一致性指数 CI: 0.032909。一致性比率 CR: 0.056740。最大特征值: 4.206029。

2024-04-20 11:27:17 281 1

原创一个基本的线性规划问题

这个问题可以被看成是一个线性规划模型，因为他原题中给出了A和B的采购价格，为收入；题目中给出了A的市场价格，是额外购买A所需要的成本，为支出，那么目标函数就显而易见。虽然在实际应用中，如原油购买量通常为整数（即吨），但在模型计算中可以假设这些变量是连续的，从而允许使用线性规划技术找到最优解。很显然，这个问题的目标函数为成本减去利益，并且变量*价格遵循这样简单的乘法关系，因此可以看作是一个线性的目标函数。如图所示，可知，5000，为最值，并且，此时x12值为1500 x22值为1000，所以购买。

2024-04-18 23:36:52 1555

weixin_69949813的博客