文献阅读 - Dimensionality Reduction by Learning an Invariant Mapping

本文提出了 Dimensionality Reduction by Learning an Invariant Mapping (DrLIM) 方法,旨在通过学习全局一致的非线性函数,实现输入空间中相似点在低维流形上保持相近。这种方法仅依赖于相邻关系,不需要输入空间的距离度量,并且对输入的非线性变换具有不变性。对比损失函数用于学习映射,使得相似样本在低维空间中聚合,非相似样本远离。实验部分展示了 DrLIM 在 MNIST 数据集上的映射效果及平移、时域和光照变化的不变性。

Dimensionality Reduction by Learning an Invariant Mapping


R. Hadsell, S. Chopra, Y. Lecun, Dimensionality Reduction by Learning an Invariant Mapping, CVPR (2006)


摘要

降维(dimensionality reduction):将高维数据点映射到低维流形上,使输入空间中相似的点在流形上相距较近(mapping a set of high dimensional input points onto a low dimensional manifold so that “similar” points in input space are mapped to nearby points on the manifold)。

已知方法的缺点:(1)与输入空间中的距离测度相关(most of them depend on a meaningful and computable distance metric in input space);(2)当新样本与训练数据关系未知时,没有能够准确映射该样本的函数(do not compute a “function” that can accurately map new input samples whose relationship to the training data is unknown)。

本文提出通过学习不变映射进行降维(Dimensionality Reduction by Learning an Invariant Mapping,DrLIM),即学习一个能够将数据均匀映射到输出流形上的全局一致非线性函数(learning a globally coherent non-linear function that maps the data evenly to the output manifold),该学习仅与近邻关系有关而无需输入空间中任何距离度量(the learning relies solely on neighborhood relationships and does not require any distance measure in the input space)。

1 引言

局部线性嵌入(Locally Linear Embedding,LLE):对类别相同的输入向量线性组合,无法处理与训练样本关系未知的数据。

样本外扩展(out-of-sample extensions):假设存在能够生成邻域矩阵的可计算核函数(assume the existence of a computable kernel function that is used to generate the neighborhood matrix)条件下,给出新样本的一致性嵌入(consistent embedding)。

此外,在输出空间中,上述方法容易使样本聚集过密而导致解退化(degenerate solutions);相反,这些方法需要找到能够被样本均匀覆盖的流形。

学习不变映射进行降维(Dimensionality Reduction by Learning an Invariant Mapping,DrLIM)通过学习全局一致非线性函数,数据映射到输出流形上:

  • 仅需训练样本间的相邻关系(neighborhood relationships between training samples);

  • 对输入的非线性变换映射不变(invariant to complicated non-linear trnasformations of the inputs such as lighting changes and geometric distortions);

  • 无先验条件下,映射未知新样本(map new samples not seen during training, with no prior knowledge);

  • 输出空间上映射平滑、一致(mapping generated by the function is in some sense “smooth” and coherent in the output space)。

对比损失函数:通过学习映射函数 G W G_{\mathbf{W}} GW的参数 W \mathbf{W} W,使原始高维空间中的近邻样本在低维流形上内聚、非近邻样本远离。低维流形上距离度量为欧氏距离(euclidean distance):

D W ( x 1 , x 2 ) = ∥ G W ( x 1 ) − G W ( x 2 ) ∥ 2 D_\mathbf{W} (\mathbf{x}_1, \mathbf{x}_2) = {\| G_\mathbf{W}(\mathbf{x}_1) - G_\mathbf{W}(\mathbf{x}_2) \|}_2 DW(x1,x2)=GW(x1)GW(x2)2

给定近邻关系集合(a set of neighborhood relationships), D W ( x 1 , x 2 ) D_\mathbf{W} (\mathbf{x}_1, \mathbf{x}_2) DW(x1,x2)能够逼近样本在输入空间上的语义相似性(semantic similarity”of the inputs in input space)。

1.1 相关工作(Previous Work)

线性嵌入(a linear embedding):主成分分析(Principal Component Analysis,PCA)、多维缩放(Multi-Dimensional Scaling,MDS)

非线性谱方法(non-linear spectral methods):ISOMAP、局部线性嵌入(Local Linear Embedding,LLE)、拉普拉斯特征图(Laplacian Eigenmaps)。上述方法步骤为:(1)确定每个样本的近邻样本列表;(2)构造元组矩阵(gram matrix);第三,元组矩阵特征值(eigenvalue)求解。

核主成分分析(Kernel PCA)

2 学习低维映射(Learning the Low Dimensional Mapping)

问题描述:给定输入空间中样本间相邻关系(neighborhood relationships between samples),寻找将高维空间输入模式映射到时低维输出的函数(a function that maps high dimensional input patterns to lower dimensional outputs)。

输入向量集合: I = { x 1 , ⋯   , x P } \mathcal{I} = \{\mathbf{x}_1, \cdots, \mathbf{x}_P\} I={ x1,,xP} x i ∈ R D , ∀ i = 1 , 2 , ⋯   , P \mathbf{x}_i \in \frak{R}^D, \forall i = 1, 2, \cdots, P xiRD,i=1,2,,P

参数方程: G W : R D → R d , d ≪ D G_{\mathbf{W}} : \frak{R}^D \rightarrow \frak{R}^d, d \ll D GW:RDRd,dD,满足:

(1)输出空间上的距离测度逼近输入空间中的近邻关系(neighborhood relationships)

(2)对输入样本的复杂变换具有不变性

(3)对近邻关系未知的样本公平(faithful even for samples whose neighborhood relationships are unknown)

2.1 对比损失函数(The Contrastive Loss Function)

高维训练向量集合: I = { x i } \mathcal{I} = \{\mathbf{x}_i\} I={ xi};对于 I \mathcal{I} I中的每条样本 x i \mathbf{x}_i xi S x i \mathcal{S}_{\mathbf{x}_i} Sxi表示与 x i \mathbf{x}_i xi相似的样本集合; y = 0 y = 0 y=0表示 x 1 \mathbf{x}_1 x

<think> 我们正在回答用户关于自动编码器(Auto-encoder)、长短期记忆网络(LSTM)、U-net以及它们在降维和序列预测中应用的问题。用户特别提到了: - Auto-encoder and LSTM - U-net and LSTM - 降维(dimensionality reduction)和序列预测(series forecasting) 我们将依次讨论这些模型及其组合,并解释它们在降维和序列预测中的应用。 参考提供的引用: [^1]: 提到了一种直接优化离散变分自编码器的方法(Direct Optimization through argmax for Discrete Variational Auto-Encoder),这涉及到变分自编码器(VAE)的优化技术。我们可以联系到自编码器在降维中的应用。 [^2]: 讨论了对称公理在机器学习模型中的作用,虽然不直接相关,但我们可以忽略,因为用户的问题没有涉及公平性和对称性。 [^3]: 讨论了MEMTO门控内存模块中内存项数量的选择,这涉及到内存效率和计算复杂度,我们可以联系到LSTM中的记忆机制。 注意:用户提供的引用[1]是关于离散变分自编码器的优化方法,引用[3]是关于内存模块的设计,这些可以为我们提供一些背景,但用户的问题更关注模型本身和应用。 我们的回答将分为以下部分: 1. 自动编码器(Auto-encoder)与LSTM - 自动编码器简介(结构和降维应用) - LSTM简介(序列建模) - 如何结合(例如:用自动编码器降维后输入LSTM进行序列预测;或用LSTM作为自动编码器的编码器/解码器处理序列数据) 2. U-net与LSTM - U-net简介(图像分割中的编码器-解码器结构,跳跃连接) - 如何与LSTM结合(例如:在时间序列图像预测中,用U-net处理空间信息,LSTM处理时间信息) 3. 降维在序列预测中的应用 - 为什么需要降维?(减少计算量,去除噪声,提取特征) - 常用降维方法(如PCA,自动编码器等) - 在序列预测中,降维通常作为预处理步骤,将高维数据降维后再用LSTM等模型进行预测 我们将结合引用[1]和[3]中的相关内容进行说明(如果适用)。 注意:由于引用[2]与问题无关,我们将忽略。 开始回答: </think> ### 自动编码器(Auto-encoder)、LSTM、U-Net在降维与序列预测中的综合解析 基于您对模型组合与任务的需求,结合引用内容,系统梳理关键技术原理与应用场景: --- ### 1. **Auto-encoder与LSTM的协同应用** #### (1) 核心原理 - **Auto-encoder**:通过编码器 $f_E$ 将高维输入压缩为低维潜变量 $z$(降维),再由解码器 $f_D$ 重构输出: $$ z = f_E(x), \quad \hat{x} = f_D(z) $$ 引用[^1]的离散变分自编码器(VAE)通过 $\arg\max$ 直接优化离散潜空间,提升表征效率[^1]。 - **LSTM**:利用门控机制(输入门/遗忘门/输出门)记忆长期序列依赖: $$ f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f) \quad (\text{遗忘门}) $$ #### (2) 组合模式与任务 | **任务类型** | **实现方式** | **优势** | |--------------------|-----------------------------------------------------------------------------|-----------------------------------| | **序列预测降维** | Auto-encoder压缩时序特征 → LSTM处理潜变量序列 | 降低LSTM输入维度,加速训练[^3] | | **时序数据生成** | LSTM生成序列 → Auto-encoder解码重构 | 生成高保真时空数据(如气象预测) | | **故障检测** | Auto-encoder学习正常模式 → LSTM预测异常点(重构误差突增) | 高敏感度异常检测[^3] | > **示例**:工业传感器数据预测 > 传感器原始数据 $x_t \in \mathbb{R}^{100}$ → Auto-encoder压缩至 $z_t \in \mathbb{R}^{10}$ → LSTM预测 $z_{t+1}$ → 解码器输出 $\hat{x}_{t+1}$ --- ### 2. **U-Net与LSTM的跨模态融合** #### (1) 核心原理 - **U-Net**:编码器-解码器架构,跳跃连接保留空间细节。适用于图像分割、时空数据。 - **LSTM**:捕获时间动态性,处理序列演化规律。 #### (2) 组合模式与任务 | **任务类型** | **实现方式** | **优势** | |----------------------|-----------------------------------------------------------------------------|-----------------------------------| | **视频预测** | U-Net编码每帧空间特征 → LSTM建模帧间时序 → U-Net解码生成未来帧 | 精准预测动态过程(如流体运动) | | **医学时序分析** | LSTM处理病历序列 → U-Net分割医学影像(融合临床与影像特征) | 多模态联合诊断 | | **遥感变化检测** | U-Net提取多期影像特征 → LSTM建模地物变化轨迹 | 长期地表覆盖监测 | > **引用[^3]关联**:MEMTO模块证明时间序列任务中少量记忆项(如10项)即可有效提取原型特征[^3],该思想可优化U-Net+LSTM的跨层特征传递效率。 --- ### 3. **降维在序列预测中的关键作用** #### (1) 必要性 - **维度灾难**:原始序列 $X \in \mathbb{R}^{T \times d}$ 当 $d$ 过大时,LSTM计算复杂度 $O(d^2)$ 剧增。 - **噪声抑制**:Auto-encoder/PCA去除冗余特征,提升模型鲁棒性。 #### (2) 技术路线 ```mermaid graph LR A[原始高维序列] --> B{降维方法} B --> C[线性方法:PCA/SVD] B --> D[非线性方法:Auto-encoder] C/D --> E[低维表征 Z] E --> F[LSTM/GRU预测] ``` #### (3) 性能优化 - **引用[^3]启示**:通过控制潜变量维度(类似MEMTO内存项数量)平衡计算成本与预测精度[^3]。 - **动态降维**:LSTM-Autoencoder联合训练,端到端优化潜空间: $$ \mathcal{L} = \underbrace{\|x-\hat{x}\|^2}_{\text{重构损失}} + \lambda \underbrace{\|y_{true} - y_{pred}\|^2}_{\text{预测损失}} $$ --- ### 4. **典型应用场景对比** | **模型组合** | **适用任务** | **数据集示例** | **关键优势** | |-----------------------|-----------------------------|------------------------|----------------------------------| | Auto-encoder + LSTM | 金融时序预测/工业异常检测 | 股票价格/传感器振动 | 高压缩比,实时性优 | | U-Net + LSTM | 视频预测/气象建模 | 监控视频/雷达回波 | 时空特征联合提取 | | PCA + LSTM | 快速原型开发 | 小型物联网数据集 | 训练速度快,易解释 | ---
评论 6
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值