一、文章大纲
0.摘要
本文综述了时间序列问题的深度学习和无监督特征学习的最新进展。虽然这些技术已经显示出对静态数据建模的前景,例如计算机视觉,但是将它们应用于时间序列数据正获得越来越多的关注。本文概述了时间序列数据中存在的特殊挑战,并回顾了将时间序列数据应用于无监督特征学习算法或修改特征学习算法以考虑时间序列数据中存在的挑战的工作。
关键词:时间序列,无监督特征学习,深度学习
1.导言和背景
为了更好地模拟复杂的现实世界数据,一种方法是开发能够捕捉相关信息的健壮特征。然而,为每个任务开发特定领域的特征是昂贵的、耗时的,并且需要数据方面的专业知识。替代方法是使用无监督的特征学习(Bengio和LeCun,2007;本吉奥等人,2012年;Erhan等人,2010年),以便从未标记的数据中学习一层特征表示。这具有这样的优点,即利用了大量且容易获得的未标记数据,并且从数据中学习特征,而不是手工制作。另一个好处是,这些层的特征表示可以被堆叠以创建更有能力的深度网络
2.时间序列数据的属性
时间序列数据由从一段时间内连续的实值过程中获取的采样数据点组成。时间序列数据有许多不同于其他类型数据的特征。
首先,采样得到的时间序列数据通常包含大量噪声,并且具有很高的维数。为了解决这一问题,可以应用信号处理技术,例如降维技术、小波分析或滤波来去除一些噪声并降低维数。使用特征提取有许多优点(Nanopoulos等人,2001)。然而,有价值的信息可能会丢失,并且特征和信号处理技术的选择可能需要数据的专业知识。
时间序列数据的第二个特点是它不确定。
此外,时间序列对时间变量有明显的依赖性。另一个挑战是时间依赖的长度可能是未知的。
许多时间序列也是非平稳的,这意味着数据的特征,如均值、方差和频率,会随着时间而变化。
总之,时间序列数据是高维的和复杂的,具有独特的性质,使它们难以分析和建模。
人们越来越感兴趣的是从无标记数据中学习表示,而不是使用手工设计的特征。无监督特征学习已被证明在学习静态数据集的特征表示层方面是成功的,并且可以与深度网络相结合来创建更强大的学习模型。然而,必须修改时间序列数据的特征学习,以便针对时间序列数据的特征进行调整,从而也捕获时间信息。
3.无监督特征学习和深度学习
从未标记数据中学习特征的优点是可以利用大量的未标记数据,并且可以学习比手工制作的特征潜在更好的特征。这两个优点都减少了对数据专业知识的需求。
3.1受限玻尔兹曼机
3.2有条件的RBM
3.3门控RBM
3.4自动编码器
3.5递归神经网络
3.6深度学习
3.7卷积和池化
3.8时间相干性
3.9隐马尔可夫模型
3.10摘要
4.经典时间序列问题
4.1录像
4.2股票市场预测
4.3语音识别
4.4音乐识别
4.5动作捕捉数据
4.6电子鼻数据
4.7生理学数据
4.8摘要
5.结论
二、一些需要明确的点
1.什么是无监督学习:
监督学习是一种目的明确的训练方式,你知道得到的是什么;而无监督学习则是没有明确目的的训练方式,你无法提前知道结果是什么。
监督学习需要给数据打标签;而无监督学习不需要给数据打标签。
监督学习由于目标明确,所以可以衡量效果;而无监督学习几乎无法量化效果如何。
无监督学习是一种机器学习的训练方式,它本质上是一个统计手段,在没有标签的数据里可以发现潜在的一些结构的一种训练方式。
它主要具备3个特点:
无监督学习没有明确的目的
无监督学习不需要给数据打标签
无监督学习无法量化效果
2.常见的两类无监督学习算法
**聚类:**简单说就是一种自动分类的方法,在监督学习中,你很清楚每一个分类是什么,但是聚类则不是,你并不清楚聚类后的几个分类每个代表什么意思。
降维:降维看上去很像压缩。这是为了在尽可能保存相关的结构的同时降低数据的复杂度。
“聚类算法”K均值聚类
K均值聚类就是制定分组的数量为K,自动进行分组。
“降维算法”主成分分析 – PCA
主成分分析是把多指标转化为少数几个综合指标。
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。
3.特征学习指的是什么:
在机器学习中,特征学习或表征学习是学习一个特征的技术的集合:将原始数据转换成为能够被机器学习来有效开发的一种形式。它避免了手动提取特征的麻烦,允许计算机学习使用特征的同时,也学习如何提取特征:学习如何学习。
机器学习一般有两种思路来提升原始数据的表达:
特征学习(feature learning),又叫表示学习(representation learning)或者表征学习,一般指模型自动从数据中抽取特征或者表示的方法,是模型自动学习的过程;
特征工程(feature engineering),主要指对于数据的人为处理提取,得到我们认为的适合后续模型使用的样式,是人工提取的工程 (狭义的特征工程指的是“洗数据”:处理缺失值,特征选择,维度压缩等各种预处理手段,但从更广义的角度看,这些处理是为了使得数据有更好的表达以便后续应用)