基于深度学习的模糊认知图方法

1 文章信息

文章题目为“Deep Fuzzy Cognitive Maps for Interpretable Multivariate Time Series Prediction”,该文于2019年发表于“IEEE TRANSACTIONS ON FUZZY SYSTEMS”。文章提出了深度模糊认知图(FCM)用于多变量时间序列预测,同时增加了可解释性。

2 摘要

模糊认知图(FCM)是一种用于系统状态预测和可解释知识表示的强大模型。近年来,许多研究通过引入时间因素、不确定性或模糊规则从而提升模型的可解释性,引入模糊神经网络或小波方法从而改进时间序列预测精度。文章提出深度模糊认知图(DFCM)用于多元时间序列预测,该方法结合FCM在可解释性方面的优势和深度神经网络在预测方面的优势。具体而言,为提高预测性能,深度FCM利用一个全连接神经网络来模拟系统中概念(Concept)之间的连接(Relationships),并利用一个循环神经网络模拟影响系统动力学的未知外生因素。此外,为提高模型的可解释性,文章提出了一种基于偏导数的方法来测量深度FCM中概念之间的连接强度,并提出了一种替代函数梯度下降算法进行参数推理。深度FCM为构建现实应用中的可解释预测器提供了重要帮助。   

3 准备知识

         0a7f25a0d69259dec3783b61ee4af6e0.png

模糊认知图-FCM:基本的FCM框架由三个元素描述:概念(Concept)、激活状态(Activation States)和关系(Relationships)。其中,概念表示系统中的组件,激活状态表示组件的状态,关系表示组件之间的影响。如上图所示,FCM利用构建一个由I个点构成的加权有向图刻画一个系统。设42acf3ae396e175c4f2c91661b752bde.png为图的节点,即第i个概念,5cdacc8096010e88d767950d2342e76d.png表示节点i和节点j之前的加权边,f88b4188144b9ee2dc2903ce5e8d5c0d.png表示第i个概念的激活状态,激活状态为1时表示完全激活,激活状态为0时表示完全不激活。对于第i个概念而言,其激活状态为一个动态的时间序列81f9c1a787b9917a9d8c6320b488d8c8.png,t+1时刻的激活状态可以由下式计算:

8793aab53795c896800963383ade222c.png

其中,2775d0659579814863a345d3b9609774.png为隶属度函数,将激活状态模糊化至[0,1]区间内。通常情况下,激活状态即为观测的时间序列,但ebe70bc1f3e1d9c5b78ffa5f52a754bc.png通常难以直接获取。给定随机的初值,DHL算法通过t时刻的观测数据调整b2c9be129354e055e1dfadfdeeb9e2a8.png

44bfc8f86a67d8ebb55dcf7c3e438879.png

39c103b4b7d5ebb1cf262b4e1ff5d72f.png

相关符号定义:文章涉及的符号定义如下所示。   

a0b86c5a8d91c756bf47560e3d59cc03.png

4 深度模糊认知图-DFCM

a2164682b8828cb77a73700f15b9d053.png

模型的框架如图所示,将从4个部分进行介绍:时间序列模糊化、刻画非线性影响、刻画外在因素、衡量概念之间的联系。

时间序列模糊化:给定一个由若干概念构成的系统,文章设第j个概念对应的原始时间序列为00df22508b18be83e33fe6993c317977.png,其值为cb7bead60b95bfc9a8bdb58f5f4b8854.png。DFCM首先通过z-score对时间序列进行归一化处理:

ed1cb4b81cb2d294e19955afabc3d454.png

进一步,FCM利用隶属度函数对归一化后的时间序列进行模糊化,得到模糊状态,其中40e5b332d6b990d62e075be681543fa6.png为Sigmoid函数:

9a5dd10fbea9c49feaf3d9b305b666fc.png

基于上式,给定一个由FDCM预测的模糊状态,为实现预测,文章通过下式对模糊状态进行去模糊化,得到预期的未来值:   

0ce4733fe0307018fe4b2d1902fd51ec.png

刻画非线性影响:基础FCM的一个缺点在于该模型难以刻画非线性关系,为解决这一问题,DFCM通过下式更新激活状态:

c7434acd49f341cf706d34dc857ddf73.png

其中,ca6c85d4686fa711ea73d6f8e72efc17.png用于刻画系统状态524b0e48375c2b7af13fff689b4f39ca.png与aj的联系,称为f-函数80eda30db559df0a47d7d7ef5f76f4b4.png用于刻画外在因素(未知因素)对于aj的影响,称为u-函数。f-函数和u-函数的求和通过Sigmoid函数进行模糊化,从而生成下一个时刻的激活状态。显然,当u-函数为0,f-函数为d90f0fc2c886f396389b80bd28bbd425.png时,DFCM退化为基本的FCM。

文章定义f-函数为前馈神经网络,第k层中,第m个神经元在第t时刻的预测值通过下式计算:

f843c76e76667b2f4bcc17b8b5ad75c8.png

其中,在k=0时,248b36b0a01ce7d253ca7eecea4eb634.png,且在最后一层不使用ReLU函数。

刻画外在因素:DFCM中的外在因素指那些对系统状态a有影响,但不能预先定义和直接测量的因素。以道路运输系统的DFCM为例,在该系统中,路段可以建模为概念,路段是否拥挤可以建模为激活状态。相邻路段的交通速度可以相互影响,形成概念之间的关系,可以用f-函数刻画。然而,交通速度也受到一些外生因素的影响,例如居民的通勤方式、交通管制、重大事件等。由于这些外生因素的状态不能直接测量,因此不能使用预定义的FCM概念来描述它们。为解决这个问题,文章提出基于LSTM的u-函数。具体而言,文章定义u-函数如下:   

62bbfa702b0485466c0142656640136f.png

其中,包括三个输入时间步t,以及时间步与预测长度τ的模,以及历史外在因素。文章基于三个考虑将u-函数设计:1. u-函数是与时间步t相关的函数,因为外在因素的影响通常随时间变化;2. 在许多情况下,外在因素具有周期性,如一天、一周、一个月等,因此也采用时间步与预测长度τ的模作为输入;3. 外在因素的动态通常具有“记忆”,即依赖于它们的历史状态。值得注意的是,对于u-函数的计算从t=2时开始。

f6f9ffa0714eb3d3c1fccb280c867d2b.png

衡量概念之间的联系:FCM的最大优势在于它能够揭示复杂系统中的概念关系。这种优势也被称为FCM的可解释性,如上图所示。简单而言,82a70fcbcd67868c29227d644347d7e0.png刻画当概念cj增加时,概念ci增加的程度。类似的,文章提出一种基于偏导数的关系计算方式:

882c7b1dddb44e41228f04968a598d12.png

其中,1e7634ec88e53c35cacba0aa64271282.png表示除了ai以外的所有激活状态。该偏导数反映了在给定所有激活状态的条件下,当ai增加时,fj增加的幅度。值得注意的是,78b5817a1812eb2173b3eb79cdf4664a.png是一个关于非关注状态(除ak以外的状态)对应激活状态的函数,为除去这些非关注状态的影响,文章对所有be1c580ab728ac81fa14c0b614752f24.png的可能值计算了55cfea8caad4a9df02300e21056a07c7.png的期望值:

66d4c79758384ad8ca2fc8399d3a8942.png

进一步,概念ai对于aj的总影响通过下式计算:

d457650b350b791cf6b42d59ffc17a0b.png

在实际应用中,依据大数定律对上述两式进行近似,由于FCM框架要求关系的值在[−1,1]的范围内,因此文章使用Tanh函数对关系值进行调整。    

c46cf229ab342539e29b2dd3cceba858.png

c08bedc05b0590e4cf83c29bef018a45.png

3175d018ee42592374e4bcce5cf448cf.png

此外,由于文章设定的DFCM模型定义f-函数为全连接神经网络,因此可以通过链式法则对部分偏导数进行计算,如下式所示,其中,66ff10fae2d05672a5c8dc21577ea12c.png为ReLU函数的导数。

c79ba82e4b50f393ece1bb2f92275929.png

d550d342a5c7452dfe415aa551dc5750.png

5 目标函数和AFGD算法

目标函数构建:由于文章构建的DFCM模型刻画了未知的外在因素,因此预测值6188576f35df6edc5be3bea8403f71f4.png和真实值504f47436ce469fda29e837a493dbd6c.png之间的误差应该是一个随机误差,文章假设59f67e33d6aa65c227b7bcd50f862597.png服从0均值的高斯噪声,文章利用最大似然估计(MLE)构建目标函数:

0a8ebff2c240653e9fca1be7dab62309.png

AFGD算法:DFCM与基本FCM的最大区别在于DFCM包含了许多深度神经网络成分,如f-函数和u-函数。然而,传统的FCM训练算法不能直接用于训练深度神经网络,因此文章基于反向传播算法提出一种新的训练方法,称为交替函数梯度下降(AFGD)。AFGD算法通过迭代的方式学习f-函数和u-函数中的参数,如下式所示:

3873aadb2625cf549db81cabc5c50d26.png    

进一步,上述计算公式可转化为下述公式:

f68b584ea9a989736cf59e6682e00760.png

上述两式可以直观地理解为u-函数和f-函数交替使用对方的预测残差来训练它们的参数。F-函数的预测残差是无法用内部FCM概念建模的影响,即外在因素的影响,因此应由u-函数吸收。相反,u-函数的预测残差应该通过f-函数进行刻画。算法总结如下:

8b7b454b068f7960485cb3d946952d0f.png

6 实验

059b0ca4b4d9dcfaaee6b6d4febc255b.png

文章选用的数据集如上表所示,包括空气质量数据集、交通速度数据集、电力消耗数据集和温度数据集。具体而言,空气质量指数(AQI):该数据集包含2017年2月至2018年2月在中国北京收集的气象和空气质量指数的时间序列。文章使用4个气象指标和5个时间点的空气质量指标作为输入来预测时间点t+1的空气质量指数;交通数据集(Traffic):该数据集包含2016年4月1日至30日北京6个路段的交通速度。文章使用t时刻所有路段的交通速度作为输入来预测t+1时刻每个路段的速度。电力消耗数据集(EPC):该数据集包含一个家庭的电力消耗测量数据3。不同的电量和一些分计量值是可用的。文章实验所用数据集对应的时间跨度为2016年12月16日至31日。文章使用四个电量和三个分计量值作为输入来预测下一个周期的三个分计量值。温度数据集(Temp):该数据集包含24个特征,这些特征是从安装在家庭房屋中的监控系统收集的。文章使用的数据集对应时间跨度为2012年3月3日至4月11日。文章使用时间t的所有特征来预测时间t+1时餐厅和房间的室内温度。实验结果如下表所示,可以看到DFCM取得了较好的预测性能。   

86e8372d0b31ddb6226424e4be7b4873.png    cb6fbc5be2a2c11e38d12fb8251f038c.png

此外,文章利用交通速度数据集对模型的组成成分进行消融实验,DFCM-1L:该模型包含一个f-函数隐藏层和一个u-函数隐藏层;DFCM-3L: 该模型包含三个f-函数隐藏层和一个u-函数隐藏层;fi-1L:该模型仅包含一层f-函数隐藏层;fi-3L: 该模型仅包含三个f-函数隐藏层;FCM:基础的FCM模型。实验结果如下。

fe7588a2e4603f3fbbd23f9d296807f9.png    

7 总结

文章提出了一种基于深度神经网络的模糊认知图模型,称为DFCM,以实现可解释的多元时间序列预测。DFCM模型将深度神经网络模型引入到FCM的知识表示框架中,从而将FCM在解释方面的优势和深度神经网络在预测方面的优势集成到同一个模型中。文章通过真实数据集验证了深度FCM在可解释性和预测能力方面的优异性能。深度FCM为构建现实应用中的可解释预测器提供了重要帮助。

  • 21
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
人工智能计算导论 人工智能计算导论全文共28页,当前为第1页。 人工智能计算导论全文共28页,当前为第2页。 知识 表达 认知 推理 机器 学习 规划 决策 自然语 言交互 高效 搜索 计算机 视觉 人工的方法在机器上实现智能 人工智能计算导论全文共28页,当前为第3页。 三大学派 符号主义 连接主义 行为主义 结构模仿 两条路线 功能模仿 人工智能计算导论全文共28页,当前为第4页。 1971 Intel 4004 1991 GPU 实现有限编 程 2005 GPU 可直接编程 2014 首个为深度 学习设计的GPU 芯片Pascal发布 2016人工智能元年 1998 Pentium II Xeon IEEE标准 1987 VHDL成为 1992 FPGA- ANN 1996 FPGA- CNN 2006 BP在FPGA上实现 5GFLOPs的处理能力 2011 大规模基千FPGA的 CNN出现 通用芯片 2008 酷睿i7 2010 AMD 6核 寒武纪"寒武纪—号" 中星微电子"星光智能—号" 谷歌-TPU Intel-XEON PHI NVIDIA-TESLA P100 NVIDIA-TESLA P4/P40 VEGA架构GPU 移动处理器GT7600 专用芯片 基千人脑功能的AI芯片 IBM-TrueNorth芯片 高通-Zeroth芯片 深鉴-DPU芯片(基千FPGA实现) 神经结构AI芯片 IBM-随机相变神经元芯片 神经元拟态芯片 基千人脑结构 的AI芯片 量子计算芯片 Rigetti Computing Google IBM 微软 NASA GPU CPU FPGA 类脑计算 人工智能计算导论全文共28页,当前为第5页。 机器学习的几个层级 人工智能 机器学习 多层感知机 深度学习 样本学习 规则学习 自主学习 人工智能计算导论全文共28页,当前为第6页。 空域延伸 input Layer 1 Layer 2 Layer n Output …… input 时域延伸(RNN) output Hidden layer y(1) x(1) Hidden layer … a(1) Hidden layer x(2) y(2) a(2) a(k-1) Hidden layer x(k) y(k) 样本学习 从浅层网络到深度学习 线性可分 线性不可分 线性不可分 分类问题 回归问题 人工智能计算导论全文共28页,当前为第7页。 输入张量 Pl P2 P3 !" !# !$ % &" &# &$ 样本学习 卷积中的矩阵乘 卷积核 人工智能计算导论全文共28页,当前为第8页。 样本学习 一些问题 数据质量 Data Quality 稀疏性 Sparsity 小样本 lack sample 偏见性 discrimination 不均衡性 Unbalance 训练效率 Training Efficiency 收敛性 Convergence 样本选择 Sample selection 并行化 parallelization 模型规模 Model Size 模型量化 Quantization 模型裁剪 Model Pruning 模型迁移 Model Transfer 人工智能计算导论全文共28页,当前为第9页。 规则学习 从遵循规则到学习规则 ! " # $ l. If 后视镜与前车B柱平行& 与前车侧边距离 30 50cm then 右打轮l00% & 倒车 If 与前车夹角45度 then 左打轮l00% & 倒车 If 与后车 I 后停车线距离小于30cm then 右打轮l00% & 前进 If 与前车夹角小于l0度 then 停车 & 回正车轮 人工智能计算导论全文共28页,当前为第10页。 规则学习 从遵循规则到学习规则 人机交互界面 知识获取 知识库 知识表达 解释器 综合数 据库 推理机 用户 专家 知识工程师 条件语言:If A then B 逻辑语言:and/or/not 确定性逻辑 模糊推理机 Mamdani Takagi-Sugeno 距离聚类 密度聚类 数据挖掘 规则表 !"#$% &'()* +$% 模糊性逻辑 ,*-. 人工智能计算导论全文共28页,当前为第11页。 规则学习 从遵循规则到学习规则 知识获取 知识库 知识表达 Q矩阵 行为 状态 有限状态 离散输出 DQN 有模型强化学习 无模型强化学习 MDP !!"" 连续输出 Value-based Gradient-based Value function Policy Actor Critic 人工智能计算导论全文共28页,当前为第12页。 规则学习 从遵循规则到学习规则 "#$%& 观察状态 行为推演 评估收益 付诸行动 '()%* ,

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

当交通遇上机器学习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值