深度强化学习在时序数据压缩中的应用

本文探讨了深度强化学习在时序数据压缩中的应用,介绍了背景、时序数据压缩方法以及深度强化学习的原理。通过两阶段的深度学习压缩算法AMMMO,实现了对时序数据的高效压缩,相比于传统方法如Gorilla和MO,平均压缩率提升了50%。同时,该算法在运行效率和并行计算平台上的性能表现出色。
摘要由CSDN通过智能技术生成

彼节者有间,而刀刃者无厚;以无厚入有间,恢恢乎其于游刃必有余地矣 ----- 庖丁解牛

前言:随着移动互联网、IoT、5G等的应用和普及,一步一步地我们走进了数字经济时代。随之而来的海量数据将是一种客观的存在,并发挥出越来越重要的作用。时序数据是海量数据中的一个重要组成部分,除了挖掘分析预测等,如何高效的压缩存储是一个基础且重要的课题。同时,我们也正处在人工智能时代,深度学习已经有了很多很好的应用,如何在更多更广的层面发挥作用?深度学习的本质是做决策,用它解决具体的问题时很重要的是找到契合点,合理建模,然后整理数据优化loss等最终较好地解决问题。在过去的一段时间,我们在用深度强化学习进行数据压缩上做了一些研究探索并取得了一些成绩,已经在ICDE 2020 research track发表(Two-level Data Compression using Machine Learning in Time Series Database)并做了口头汇报。在这里做一个整体粗略介绍,希望对其它的场景,至少是其它数据的压缩等,带来一点借鉴作用。

1. 背景描述

1.1 时序数据

时序数据顾名思义指的是和时间序列相关的数据,是日常随处可见的一种数据形式。下图罗列了三个示例 a)心电图,b)股票指数,c)具体股票交易数据。

关于时序数据库的工作内容,简略地,在用户的使用层面它需要响应海量的查询,分析,预测等;而在底层它则需要处理海量的读写,压缩解压缩,采用聚合等操作,而这些的基本操作单元就是时序数据,一般(也可以简化)用两个8 byte的值进行统一描述。

可以想象,任何电子设备每天都在产生各种各样海量的时序数据,需要海量的存储空间等,对它进行压缩存储及处理是一个自然而然的方法。而这里的着重点就是如何进行更高效的压缩。

1.2 强化学习

机器学习按照样本是否有groundTruth可分为有监督学习,无监督学习,以及强化学习等。强化学习顾名思义是不停得努力得去学习,不需要groundTruth,真实世界很多时候也没有groundTruth,譬如人的认知很多时间就是不断迭代学习的过程。从这个意义上来说,强化学习是更符合或更全面普遍的一直处理现实世界问题的过程和方法,所以有个说法是:如果深度学习慢慢地会像C/Python/Java那样成为解决具体问题的一个基础工具的话,那么强化学习是深度学习的一个基础工具。

强化学习的经典示意图如下,基本要素为State,Action,和Environment。基本过程为:Environment给出State,Agent根据state做Action决策,Action作用在Environment上产生新的State及reward,其中reward用来指导Agent做出更好的Action决策,循环往复….

而常见的有监督学习则简单很多,可以认为是强化学习的一种特殊情况,目标很清晰就是groudTruth,因此对应的reward也比较清晰。

强化学习按照个人理解可以归纳为以下三大类:

  • DQN:Deep Q network,比较符合人的直观感受逻辑的一种类型,它会训练一个评估Q-value的网络,对任一state能给出各个Action的reward,然后最终选择reward最大的那个action进行操作即可。训练过程通过评估"估计的Q-value“”和“真正得到的Q-value”的结果进行反向传递,最终让网络估计Q-value越来越准。
  • Policy Gradient:是更加端到端的一种类型,训练一个网络,对任一state直接给出最终的act
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值