QLearning算法
Java QLearning算法论文复现
将论文中的QLearning算法用java语言进行了复现。
原文是python实现的,这里贴个地址,方便跳转。
强化学习之Q-Learning(python实现)
我的java版本:
public static void main(String[] args) throws Exception {
//状态动作数量
int state_num = 6, action_num = 6;
//学习率
double gamma = 0.8;
//训练次数
int epochNumber = 200;
//迭代终止条件
int conditionStop = 5;
//初始化地图
int[][] R = Init(state_num, action_num);
double[][] Q = new double[state_num][action_num];
for (int epoch = 0; epoch < epochNumber; epoch++) {
//训练次数
// System.out.println("第" + epoch + "轮迭代开始" );
Random random = new Random();
int s = random.nextInt(state_num); //状态选择
// System.out.println("当前状态为:" + s);
boolean loop = true;
while (loop) {
//返回奖励列表中非负奖励的动作的索引列下标
int a = randomAction(R[s]);
// System.out.println("当前状态" + s + "下,选择的动作为:" + a);
//返回当前状态a中的该行的Q表的最大值
double qMax = Arrays.stream(Q[a]).max().orElseThrow(()-> new NoSuchElementException("No value present"));
// System.out.println("Q表第" + a + "行的最大值为" + qMax);
<