【论文解读】Partial Hash Update via Hamming Subspace Learning

最新推荐文章于 2023-11-08 20:45:15 发布

Y.G Bingo

最新推荐文章于 2023-11-08 20:45:15 发布

阅读量378

点赞数

分类专栏：机器学习方法

本文链接：https://blog.csdn.net/yanhuibin315/article/details/70310015

版权

机器学习方法专栏收录该内容

10 篇文章 0 订阅

订阅专栏

“基于汉明子空间学习的部分哈希码的更新”论文梗概，以便自己对该论文做相关回顾

摘要

这篇论文主要是应对哈希码的更新，由于当前大量社交数据的哈希在线更新变得非常耗时，而提出的一种加快哈希更新方法，叫汉明子空间学习（Hamming Subspace Learning）HSL。HSL的主要动机是通过选择具有代表性的哈希方法，从高维汉明空间中生成低维的汉明子空间，通过使用HSL，希望能提高所有样本更新二进制码的速度。这个汉明子空间主要是基于贪心选择策略(greedy selection strategy)和分布式保存汉明学习子空间(the Distribution Preserving Hamming Subspace learning)来设计的一个新颖的损失函数。
关键词：汉明子空间、哈希码更新、二进制编码

介绍

虽然哈希技术在许多方面做的很成功，但在更新上的花销依然存在一个很大的问题。
　　依赖数据的哈希（DDH）众所周知在检索效果上要比数据独立哈希的效果好。然而，对于流媒体数据，哈希模型。然而，对于流数据，应修改DDH的哈希模型以适应新的即将到来的数据的分布，这被称为在线更新。哈希方法的在线更新包含两个部分：1、哈希方法更新，2、重新生成所有样本的二进制码。前一部分的时间主要涉及新来的数据的数量和一些在线的哈希模型，已经提出减少在培训时间。大量的样本容量和高维的特征已经警示我们要减小更新二进制码的时间。
我们希望更新很少的哈希方法和位数，而不是全部，这样将在在线更新的过程中减小时间的花销。我们将使用汉明子空间学习技术（Hamming Subspace Learning ：HSL）技术实现局部哈希更新（Partial Hash Update）。这个技术的基本方法就是从高维的汉明空间生成一个汉明信息子空间，如下图所示：
生成汉明子空间的过程
　　为了表现HSL，我们使用一个贪婪汉明子空间学习框架，使用一个决策孙淑函数来选择优化哈希方法。基于这个框架，提出了分布式保留汉明子空间学习（DHSL：Distribution preserving Hamming Subspace Learning）,可被视为HSL技术的一种有效特殊情况。DHSL使用优化方法子集和位初始化，来使用新来的样本更新它们。
　　此外，我们光差到HSL能作为哈希方法的有效部分。在哈希模型中，HSL能从预训练多候选方法中选择一个数字来优化哈希方法。基于这个动机，提出了一个基于哈希方法的汉明子空间（H2S），而且它的性能也能从优化分析和实验结果中体现出来。
　　这篇文章的主要贡献：1、首次提出了对于提高更新哈希码速度的部分哈希更新的方法；2、要部分更新，提出了一个简单的框架来学习一个汉明子空间，基于这个框架，我们提出了分布式保存汉明子空间的学习方法；3、基于DHSL，提出了一个叫H2S的哈希方法。

近期工作

符号

$B$ ：矩阵
　　 $B_i$ ：矩阵的行
　　 $B_{(j)}$ ：矩阵的列
　　 $B_{ij}$ ：矩阵位置
　　 $x$ :向量
　　 $x_i$ :向量的元素
　　 $X=\{x_i\}_{i=1}^n\in R^{n×Ｍ}$ :表示在输入特征空间的训练样本
　　 $B^h=\{b_i^h\}_{i=1}^n\in \{-1,1\}^{n×Ｄ}$ ：表示在汉明空间中的样本二进制码
　　 $B^l=\{b_i^l\}_{i=1}^n\in \{-1,1\}^{n×Ｄ}$ ：是低维二进制码
　　 $M$ :样本原始特征的维数
　　 $D$ :高维二进制码的长度
　　 $d$ :低维二进制码的长度
　　 $\|\centerdot\|$ :F范数
　　 $sgn(\centerdot)$ :元素符号函数
　　 $diag(\centerdot)$ :对角矩阵运算符

部分哈希码更新

如图所示
　　一个简单的在线更新工程
　　哈希码的更新分为两个部分：1、哈希方法更新；2、二进制码的更新。
　　 $T_f$ 表示更新哈希方法的时间、
　　 $T_b$ 二进制位数、
　　对于一些在线哈希方法， $T_f$ 只和流数据的数量有关，并且这些方法经常关注保存时间 $T_f$ .
　　然而，样本空间的数量 $n$ 会随着新进来的样本数量增加，因此，当数据维度超过百万时， $T_b$ 会很耗时，实验中发现，更新二进制码的花销是很昂贵的，为了减少 $T_b$ 的时间，我们希望能选择部分哈希方法和位数，当新的样本输入时，汉明子空间学习并且更新它们，如下图可知，当我们使用一般的哈希方法将会节省一般的时间
　　这里写图片描述
　　基于这个动机，列出了更新流程的主要步骤：
　　1、计算HSL的选择器 $s$
　　2、通过在线更新更新选择方法
　　3、通过更新方法更新选择位数
　　对于更新方法，我们应用一些学习方法来提出HSL框架，比如，在线学习（online learning），增量学习（incremental learning），提供了更多扩展更新选择位。

A. 通过汉明子空间学习的部分更新(Partial Update with Hamming Subspace Learning(HSL))

一个在汉明子空间上学习的简单贪婪哈希函数的选择方法：
　　 $b_i^h = h(x_i) = sgn(W^{hT}x_i)$ ,
　　其中： $W^h\in R^{M×D}$ 是映射 ${w_i\}_{i=1}^D$ 的矩阵范式，学习汉明子空间的目标是生成映射： $W^l=W^h diag(s)$ ,其中 $s\in\{0,1\}^{1×Ｄ}$ 是一个向量选择器。
　　 $L(\centerdot)$ :损失函数
　　 $\min_s L(sgn(W^{lT}X)),s\in \{0,1\}^{1×Ｄ}$ ：汉明子空间学习
　　其中：
　　 $L(sgn(W^{lT}X)) = L(sgn((W^h diag(s))^T X))\\ =L(diag(s)sgn(W^{hT}X))\\ = L(diag(s)B^h).$
　　因此，为了解决上述目的函数，我们提出了一个简单的贪婪汉明子空间学习方法来计算 $s$ 。简略概括如下：
　　1、给一个低维度汉明子空间的维度 $d$ 且令集合 $s^{(0)}$ 为零矩阵；
　　2、设 $s_k$ ,是的 $L(diag(s)B^h)$ 最小化，令 $s^{(0)}$ 初始值为1
　　
　　 $\frac{\partial L(diag(s^{(t-1)})B^h)}{\partial s_k}$ :代表每一个元素 $s$ 的分数。在每一次迭代里，我们选择最高得分的那个，这个简单的算法能简单的扩展，并且能使用一些损失函数。