Java QLearning算法实现

Java QLearning算法论文复现

将论文中的QLearning算法用java语言进行了复现。

原文是python实现的,这里贴个地址,方便跳转。
强化学习之Q-Learning(python实现)

我的java版本:


    public static void main(String[] args) throws Exception {
   
        //状态动作数量
        int state_num = 6, action_num = 6;
        //学习率
        double gamma = 0.8;
        //训练次数
        int epochNumber = 200;
        //迭代终止条件
        int conditionStop = 5;

        //初始化地图
        int[][] R = Init(state_num, action_num);
        double[][] Q = new double[state_num][action_num];
        for (int epoch = 0; epoch < epochNumber; epoch++) {
    //训练次数
//            System.out.println("第" + epoch + "轮迭代开始" );
            Random random = new Random();
            int s = random.nextInt(state_num); //状态选择
//                System.out.println("当前状态为:" + s);
            boolean loop = true;
            while (loop) {
   
                //返回奖励列表中非负奖励的动作的索引列下标
                int a = randomAction(R[s]);
//                    System.out.println("当前状态" + s + "下,选择的动作为:" + a);
                //返回当前状态a中的该行的Q表的最大值
                double qMax = Arrays.stream(Q[a]).max().orElseThrow(()-> new NoSuchElementException("No value present"));
//                    System.out.println("Q表第" + a + "行的最大值为" + qMax);
                <
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值