麻将博弈AI构建方法综述

本文综述了麻将博弈AI的构建方法,包括基于知识和基于数据的策略。基于知识的方法利用设计者经验和决策模型,但易受限于规则,而基于数据的AI,尤其是深度强化学习,如Suphx,已展现出超越人类高手的水平。然而,麻将AI面临奖励稀疏、对手建模不足、通用性差等问题,未来研究应侧重于算法优化、构建多元评估指标和通用测试环境。
摘要由CSDN通过智能技术生成

摘要: 麻将及其不同变体的规则复杂,构建高水平的麻将博弈AI (artificial intelligence)算法及其测试环境等面临巨大挑战。本文分析了麻将博弈的相关研究文献,梳理出基于知识和基于数据的两大类麻将AI构建方法,分析了每种类型的构建方法的优势和局限性,重点分析了Suphx构建方法。指出了麻将AI构建面临的问题和挑战;提出将经验回放、分层强化学习、好奇心模型、对手模型、元学习、迁移学习、课程学习等应用到麻将博弈AI算法优化中,构建多元化的麻将AI评估指标、通用对抗平台和高质量的数据集等未来的研究重点。

  • 关键词: 
  • 机器博弈  /  
  • 非完备信息博弈  /  
  • 麻将  /  
  • Suphx  /  
  • 知识  /  
  • 对手建模  /  
  • 深度学习  /  
  • 强化学习  

机器博弈是人工智能研究领域的一个重要分支,根据游戏参与者对他人信息的可知程度,机器博弈分为完备信息和非完备信息博弈。复杂条件下的多智能体博弈[1-3]是当前研究的热点,对实践和生产具有重要意义,可以提高交通决策、优化智能生产、甚至对军事控制领域也有一定影响。麻将是典型的非完备信息博弈游戏,其隐藏信息复杂、随机性强、参与者多,是研究复杂条件下多智能体博弈的基础方向之一。麻将博弈AI(a

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

米朵儿技术屋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值