时间序列模型

0. 时间序列的定义

时间序列是一族依赖于时间 t t t 的随机变量,它在统计学上被称作随机过程

T T T 是一段任意长时间的时刻实数集,随机过程是依赖于参数 t ∈ T t \in T tT 的一族(无限多个)随机变量 { X ( t ) , t ∈ T } \{ X(t), t \in T \} {X(t),tT},其中每一个随机变量 X ( t ) X(t) X(t) 称为 t t t 时刻时随机过程的状态(state)。状态所有可能取值的集合称作随机过程的状态空间,它通常是有 N N N 个可能取值的离散空间,记作 S = { s 1 , s 2 , ⋯   , s N } S = \{s_1, s_2, \cdots, s_N\} S={s1,s2,,sN}。这族随机变量按时间顺序排列组成的序列,称为随机过程的状态序列(state sequence),记作 Y = ( y 1 , y 2 , ⋯   , y T ) ,    y i ∈ S Y = (y_1, y_2, \cdots, y_T), \ \ y_i \in S Y=(y1,y2,,yT),  yiS

(进行一次试验)由状态序列产生的对应时刻的离散型变量(实数值)或连续型变量(如在语音识别任务中,它是一段声音的波形),称为随机过程在该时刻的观测(observation),观测可仅由对应时刻状态的一个随机变量产生,也可以由任意多个时刻状态的多个随机变量共同产生。将观测所有可能取值的集合记作 O = ( o 1 , o 2 , ⋯   , o M ) O = (o_1, o_2, \cdots, o_M) O=(o1,o2,,oM);观测按时间顺序排列组成的序列,称为随机过程的观测序列(observation sequence),记作 X = ( x 1 , x 2 , ⋯   , x T ) ,    x i ∈ O X = (x_1, x_2, \cdots, x_T), \ \ x_i \in O X=(x1,x2,,xT),  xiO

1. 时间序列建模的目的

时间序列模型的目的是:根据给定的观测序列特征,构建一个模型,来预测(推断)给定观测的状态序列。概率模型probabilistic model)提供了一种描述框架,将上述任务归结于计算模型变量的概率分布,即:计算给定观测序列条件下状态序列的概率分布 P ( Y ∣ X ) P(Y|X) P(YX)

在构造概率模型时,有两种不同的训练方法,它们衍生出了概率模型的不同实现策略:判别模型(discriminative model)和生成模型(generative model)判别模型只考虑不同标签类别的特征之间的差异,直接学习特征条件下标签的概率分布 P ( y ∣ X ) P(y|X) P(yX)生成模型考虑标签类别的分布和标签与特征共同出现的分布,首先学习标签与特征共同出现的联合概率分布 P ( X , y ) P(X, y) P(X,y),然后通过贝叶斯公式求得特征条件下标签的概率分布 P ( y ∣ X ) P(y|X) P(yX)所以判别式模型只能用于判别任务,而生成式模型既可以用于生成数据、也可以用于判别任务1

2. 自然语言处理中时间序列模型的基本任务

自然语言是一种典型的时间序列数据。在自然语言处理场景中,时间序列模型有概率计算、(模型)参数学习和状态预测三类基本任务。

概率计算是指,给定模型参数 θ \theta θ 和观测序列 X X X,计算观测序列在此模型条件下的出现概率 P ( X ∣ θ ) P(X | \theta) P(Xθ)参数学习是指,给定观测序列 X X X,估计此条件下令观测序列出现概率最大的模型参数 θ ^ = arg max ⁡ P ( X ∣ θ ) \hat{\theta} = \argmax P(X | \theta) θ^=argmaxP(Xθ)状态预测是指,给定模型参数 θ \theta θ 和观测序列 X X X,预测2此条件下状态序列的概率分布 P ( Y ∣ X ; θ ) P(Y | X; \theta) P(YX;θ)

此外,神经网络时间序列模型也常组成编码器-解码器结构,用于文本生成任务。

3. 时间序列模型

3.1 概率图模型

概率图模型Probabilistic Graphical Model, PGM)简称图模型(Graphical Model, GM),是一种用图结构来描述多元随机变量之间条件独立性的概率模型,它是简化概率模型中联合概率或联合条件概率计算的有效手段

概率图模型以图为表示工具,最常见的是用一个结点表示一个或一组随机变量,结点之间的表示变量间的概率相关关系。根据边的性质不同,概率图模型可分为有向图模型和无向图模型,如下图所示:

概率图模型体系

3.1.1 隐马尔科夫模型(HMM)

隐马尔科夫模型hidden Markov model,HMM)是结构最简单的动态贝叶斯网络,它属于概率模型中的生成模型,可用于解决监督学习中的标注问题3

HMM描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列,再由各个状态(state)生成一个观测(observation)从而产生观测随机序列的过程。隐藏的马尔科夫链随机生成的状态序列是模型的标签(target),每个状态生成一个观测而产生的观测序列是模型的特征(features),序列的每一个位置可以看作是一个时刻。

详细内容,请见作者文章:时序模型:隐马尔科夫模型(HMM)

3.1.2 条件随机场模型(CRF)

线性条件随机场(linear chain conditional random field,Linear-CRF)是对隐马尔科夫模型(hidden Markov model,HMM)在更普遍的实际问题上的推广4

隐马尔科夫(HMM)模型假设序列数据具有齐次马尔可夫性和观测独立性,这是对实际问题的两种近似简化。线性条件随机场(Linear-CRF)模型取消了观测独立性假设,并削弱了齐次马尔可夫性假设;Linear-CRF考虑一个模型每时刻隐藏状态,都是受其相邻时刻隐藏状态和全部时刻观测值共同影响的情况假设

3.2 神经网络模型

3.2.1 RNN

循环神经网络(recurrent neural network, RNN)是一类专门设计处理不定长序列数据的神经网络。具体内容请见作者文章:时序模型:循环神经网络(RNN)

3.2.2 LSTM

循环神经网络(RNN)模型存在长期依赖问题,不能有效学习较长时间序列中的特征。长短期记忆网络(long short-term memory,LSTM)是最早被公认能有效缓解长期依赖问题的改进方法之一。具体内容请见作者文章:时序模型:长短期记忆网络(LSTM)【暂未公开】

3.2.3 GRU

门控循环单元网络(Gated Recurrent Unit,GRU)是在LSTM基础上发展而来的一种简化变体,它通常能以更快的计算速度达到与LSTM模型相似的效果。具体内容请见作者文章:时序模型:门控循环神经网络(GRU)【暂未公开】

3.2.4 Seq2Seq

RNN类模型(RNN、LSTM、GRU)要求输出是一个实数,或是一个固定长度的序列(其长度与输入序列相同)。为处理输入和输出都是可变长度序列的任务,Seq2Seq模型被设计产生。具体内容请见作者文章:


  1. 具体公式推导可参考机器学习:分类问题的两种模型机器学习中的判别式模型和生成式模型 ↩︎

  2. 又称:推断(inference)或解码(decoding) ↩︎

  3. 标注问题是分类问题的一个推广,它的输入是一个观测序列,输出的是一个标记序列或状态序列。也就是说,分类问题的输出是一个值,而标注问题输出是一个向量,向量的每个值属于一种标记类型。参考自:分类问题、标注问题与回归问题的区别 ↩︎

  4. 详细演进推导过程可参考文章Linear-Chain-CRF 的前世今生 ↩︎

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值