Java QLearning算法实现_q学习 java-CSDN博客

本文链接：https://blog.csdn.net/weixin_44548678/article/details/135751959

QLearning算法

Java QLearning算法论文复现

Java QLearning算法论文复现

将论文中的QLearning算法用java语言进行了复现。

原文是python实现的，这里贴个地址，方便跳转。
强化学习之Q-Learning（python实现）

我的java版本：


    public static void main(String[] args) throws Exception {
   
        //状态动作数量
        int state_num = 6, action_num = 6;
        //学习率
        double gamma = 0.8;
        //训练次数
        int epochNumber = 200;
        //迭代终止条件
        int conditionStop = 5;

        //初始化地图
        int[][] R = Init(state_num, action_num);
        double[][] Q = new double[state_num][action_num];
        for (int epoch = 0; epoch < epochNumber; epoch++) {
    //训练次数
//            System.out.println("第" + epoch + "轮迭代开始" );
            Random random = new Random();
            int s = random.nextInt(state_num); //状态选择
//                System.out.println("当前状态为：" + s);
            boolean loop = true;
            while (loop) {
   
                //返回奖励列表中非负奖励的动作的索引列下标
                int a = randomAction(R[s]);
//                    System.out.println("当前状态" + s + "下，选择的动作为:" + a);
                //返回当前状态a中的该行的Q表的最大值
                double qMax = Arrays.stream(Q[a]).max().orElseThrow(()-> new NoSuchElementException("No value present"));
//                    System.out.println("Q表第" + a + "行的最大值为" + qMax);
                <