阅读笔记:学习带有标签的结构化推理网络(Learning Structured Inference Neural Networks with Label Relations)

阅读笔记:学习带有标签的结构化推理网(2016)


Learning Structured Inference Neural Networks with Label Relations

主要内容:

场景的图像具有不同的对象和丰富的属性,可以进行不同层次的视觉分类。自然图像可以使用细粒度标签(描述主要组件)、粗粒度标签(描述高级抽象)或一组显示属性的标签来分配。这种在不同概念层上的分类可以用包含标签信息的标签图来建模。利用这一丰富的信息和一个先进的深度学习框架,并提出了一个通用的结构化模型,利用不同的标签关系来提高图像分类性能。

模型结构
在这里插入图片描述

方法:

利用标签关系来改进对分层视觉概念的推断。
大致思路:输入图片——CNN提取特征作为每层的输入特征——概念层从细粒度层堆叠到较粗粒度层(标签关系被定义为连续层之间的关系,并形成一个分层的图形),层间关系和层内关系都由RNN来捕捉

具体细节:

(1)第一层的输入 x t i x^i_t xti:CNN提取图片特征 I i I^i Ii 并将图片变为4096维的特征向量;

x t i = W t ⋅ C N N ( I i ) + b x , t x^i_t=W_t\cdot CNN(I^i)+b_x,_t xti=WtCNN(Ii)+bx,t

(2)自顶向下和自底向上的推理:
为了生成具体标签的概率在 x t i x^i_t xti上应用了一个简单的激活函数,将其变为 a t i a^i_t ati,那么信息传递过程可以表示为:

a t i = V t − 1 , t ⋅ a t − 1 i + H t ⋅ x t i + b a , t a^i_t=V_{t-1},_t\cdot a^i_{t -1}+H_t\cdot x^i_t+b_a,_t ati=Vt1,tat1i+Htxti+ba,t

其中 V t − 1 , t V_{t-1,t} Vt1,t是自顶向下的层间参数, H t H_t Ht表示层内标签关系。与标准的RNN不同,标准RNN在每一步重复学习V和H,而模型中的 V t − 1 V_{t-1} Vt1 H t H_t Ht是每一时间步的V和H。
为了学习到这两个参数加入损失函数:

∑ i = 1 N ∑ t = 1 T ∑ y = 1 n t ( 1 ( y t i = y ) ⋅ l o g ( o ˊ ) ( a t i ) + 1 ( y t i ≠ y ) ⋅ l o g ( 1 − o ˊ ( ( a t i ) ) \boxed{\sum\limits_{i = 1}^{N}\sum\limits_{t = 1}^{T} \sum\limits_{y = 1}^{n_t}(1(y^i_t=y)\cdot log(ó)(a^i_t)+1(y^i_t\ne y)\cdot log(1-ó((a^i_t))} i=1Nt=1Ty=1nt(1(yti=y)log(oˊ)(ati)+1(yti̸=y)log(1oˊ((ati))

(3)构建BINN:

a → t i = V → t − 1 , t ⋅ a → t − 1 i + H → t ⋅ x t i + b → t \overrightarrow{a}^i_t= \overrightarrow {V}_{t-1,t}\cdot\overrightarrow{a}^i_{t-1}+\overrightarrow{H}_{t}\cdot x^i_t+\overrightarrow b_t a ti=V t1,ta t1i+H txti+b t
a t i ← = V ← t − 1 , t ⋅ a ← t − 1 i + H ← t ⋅ x t i + b ← t \overleftarrow{a^i_t}= \overleftarrow {V}_{t-1,t}\cdot\overleftarrow{a}^i_{t-1}+\overleftarrow{H}_{t}\cdot x^i_t+\overleftarrow b_t ati =V t1,ta t1i+H txti+b t
a t i = U → t ⋅ a → t i + U ← t ⋅ a ← t i + b a , t {a^i_t}=\overrightarrow{U}_{t}\cdot \overrightarrow a^i_t+ \overleftarrow {U}_t\cdot\overleftarrow{a}^i_{t}+b_{a,t} ati=U ta ti+U ta ti+ba,t
(4)为了避免参数太多,构建SINN:利用正相关和负相关的结构化标签关系作为先验知识,对模型进行了改进,如果两者之间没有语义关系将其设置为0
构建规则如下:
在这里插入图片描述
a → t i = γ ( V + → t − 1 , t ⋅ a → t − 1 i ) + γ ( H + → t ⋅ x t i ) − γ ( V − → t − 1 , t ⋅ a → t − 1 i ) − γ ( H − → t ⋅ x t i ) + b → t \overrightarrow{a}^i_t= \gamma(\overrightarrow {V^+}_{t-1,t}\cdot\overrightarrow{a}^i_{t-1})+\gamma(\overrightarrow{H^+}_{t}\cdot x^i_t)-\gamma(\overrightarrow {V^-}_{t-1,t}\cdot\overrightarrow{a}^i_{t-1})-\gamma(\overrightarrow{H^-}_{t}\cdot x^i_t)+\overrightarrow b_t a ti=γ(V+ t1,ta t1i)+γ(H+ txti)γ(V t1,ta t1i)γ(H txti)+b t
a ← t i = γ ( V + ← t − 1 , t ⋅ a ← t − 1 i ) + γ ( H + ← t ⋅ x t i ) − γ ( V − ← t − 1 , t ⋅ a ← t − 1 i ) − γ ( H − ← t ⋅ x t i ) + b ← t \overleftarrow{a}^i_t= \gamma(\overleftarrow {V^+}_{t-1,t}\cdot\overleftarrow{a}^i_{t-1})+\gamma(\overleftarrow{H^+}_{t}\cdot x^i_t)-\gamma(\overleftarrow {V^-}_{t-1,t}\cdot\overleftarrow{a}^i_{t-1})-\gamma(\overleftarrow{H^-}_{t}\cdot x^i_t)+\overleftarrow b_t a ti=γ(V+ t1,ta t1i)+γ(H+ txti)γ(V t1,ta t1i)γ(H txti)+b t
a t i = U → t ⋅ a → t i + U ← t ⋅ a ← t i + b a , t {a^i_t}=\overrightarrow{U}_{t}\cdot \overrightarrow a^i_t+ \overleftarrow {U}_t\cdot\overleftarrow{a}^i_{t}+b_{a,t} ati=U ta ti+U ta ti+ba,t
(5)用部分观察预测可以改善另一概念层的结果:比如知道户外人造场地再预测棒球拍的概率就会更大一点。将预测标签转化为激活概率去改善目标概念层:
在这里插入图片描述
g ( y ) = { l o g ( y 1 − ( y + ε ) , i f y = 0 ; l o g ( y 1 − ( y − ε ) i f y = 1 g(y)=\Big\{log (\dfrac{y}{1-(y+\varepsilon)},if \quad y=0\quad ;\quad log (\dfrac{y}{1-(y-\varepsilon)}if \quad y=1 g(y)={log(1(y+ε)y,ify=0;log(1(yε)yify=1
论文下载链接:https://arxiv.org/abs/1511.05616

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值