DBA bandits: Self-driving index tuning underad-hoc, analytical workloads with safety guarantees

DBA bandits: Self-driving index tuning underad-hoc, analytical workloads with safety guarantees (ICDE 2020)

    自动化物理数据库设计一直是数据库研究的长期兴趣,这是由于优化结构所带来的显著性能提升。尽管取得了重大进展,但当今的大多数商业解决方案都是高度手动的,需要数据库管理员(dba)离线调用,dba需要识别并提供有代表性的培训工作负载。即使是像查询存储这样的最新进展也只能对动态环境提供有限的支持。这种现状是站不住脚的:确定有代表性的静态工作负载不再现实;物理设计工具仍然容易受到查询优化器成本错误估计的影响。

我们提出了一种自动的在线索引选择方法它避开了DBA和查询优化器,通过战略探索和直接性能观察来学习可行结构的好处我们把这个问题看作是不确定性下的一个连续决策,特别是在bandit learning环境下。Multi-armed bandits平衡exploration and exploitation ,以可证明的保证平均绩效,收敛于完美的后见之明的最佳政策。我们的简化bandit framework 在收敛速度和性能波动性方面优于深度强化学习(RL)。综合经验结果表明,与最先进的商业调优工具相比,移动和临时工作负载的速度可提高75%,静态工作负载的速度可提高28%,与深度RL替代方案相比,速度可提高58%。

本文目的:

工作负载下的在线索引选择问题可以在多臂强盗(MAB)学习中有效地建模成马尔可夫决策过程。MABs 采取行动(选择指标)来最大化累积回报,权衡探索未尝试的行动和利用迄今观察到的回报最大化的行动(见图1)。

 多臂老虎机机制实现在线索引选择

问题:

 就是将整个配置序列建模成MDP过程,然后实现最小化配置时间

MAB FOR ONLINE INDEX SELECTION 

实验结果:

从实验结果图看出:DQN的效果比MAB效果要好很多 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值