DBA bandits: Self-driving index tuning underad-hoc, analytical workloads with safety guarantees (ICDE 2020)
自动化物理数据库设计一直是数据库研究的长期兴趣,这是由于优化结构所带来的显著性能提升。尽管取得了重大进展,但当今的大多数商业解决方案都是高度手动的,需要数据库管理员(dba)离线调用,dba需要识别并提供有代表性的培训工作负载。即使是像查询存储这样的最新进展也只能对动态环境提供有限的支持。这种现状是站不住脚的:确定有代表性的静态工作负载不再现实;物理设计工具仍然容易受到查询优化器成本错误估计的影响。
我们提出了一种自动的在线索引选择方法它避开了DBA和查询优化器,通过战略探索和直接性能观察来学习可行结构的好处。我们把这个问题看作是不确定性下的一个连续决策,特别是在bandit learning环境下。Multi-armed bandits平衡exploration and exploitation ,以可证明的保证平均绩效,收敛于完美的后见之明的最佳政策。我们的简化bandit framework 在收敛速度和性能波动性方面优于深度强化学习(RL)。综合经验结果表明,与最先进的商业调优工具相比,移动和临时工作负载的速度可提高75%,静态工作负载的速度可提高28%,与深度RL替代方案相比,速度可提高58%。
本文目的:
工作负载下的在线索引选择问题可以在多臂强盗(MAB)学习中有效地建模成马尔可夫决策过程。MABs 采取行动(选择指标)来最大化累积回报,权衡探索未尝试的行动和利用迄今观察到的回报最大化的行动(见图1)。
多臂老虎机机制实现在线索引选择
问题:
就是将整个配置序列建模成MDP过程,然后实现最小化配置时间
MAB FOR ONLINE INDEX SELECTION
实验结果:
从实验结果图看出:DQN的效果比MAB效果要好很多