具身智能零碎知识点（三）：深入解析 “1D UNet”：结构、原理与实战

墨绿色的摆渡人

于 2025-04-12 21:49:06 发布

阅读量1k

点赞数 22

分类专栏：具身智能零碎知识点文章标签： pytorch 人工智能 python transformer 具身智能

本文链接：https://blog.csdn.net/xzs1210652636/article/details/147174651

版权

具身智能零碎知识点专栏收录该内容

11 篇文章

订阅专栏

【深度学习入门】1D UNet详解：结构、原理与实战指南

一、1D UNet是什么？

1D UNet 是一种专为处理一维序列数据（如音频、时间序列、传感器信号）设计的深度学习模型。它通过 “编码-解码”结构 和 跳跃连接（Skip Connection） 实现高效特征提取与细节恢复，广泛应用于信号去噪、时序预测、语音增强等任务。

二、核心结构与功能

1. 整体架构

输入序列 → 编码器（下采样） → 瓶颈层 → 解码器（上采样） → 输出序列
         ↑          ↑           ↑          ↑
        跳跃连接    跳跃连接     跳跃连接    跳跃连接

2. 编码器（Encoder）

作用：压缩序列长度，提取高层次抽象特征。
核心操作：
- 1D卷积：提取局部特征（如卷积核大小=3）。
- 下采样（Downsampling）：通过最大池化（MaxPooling）或步长卷积减少序列长度。

示例：

# 输入形状：[batch_size, 1, 100]
x = Conv1D(filters=64, kernel_size=3)(x)  # 输出长度=98（padding='valid'）
x = MaxPooling1D(pool_size=2)(x)         # 输出长度=49

3. 解码器（Decoder）

作用：恢复序列长度，结合细节生成输出。
核心操作：
- 上采样（Upsampling）：通过转置卷积（Conv1DTranspose）扩展长度。
- 跳跃连接：拼接编码器对应层的特征图，补充细节。

示例：

# 输入形状：[batch_size, 256, 25]
x = Conv1DTranspose(filters=128, kernel_size=2, stride=2)(x)  # 输出长度=50
x = concatenate([x, encoder_feature])  # 拼接编码器特征（长度=50）

4. 跳跃连接（Skip Connection）

作用：防止信息丢失，将编码器的低层细节直接传递给解码器。
实现步骤：
1. 保存编码器输出：在编码器的每一层（如enc1, enc2）保存特征图。
2. 解码器拼接：在解码器的对应层拼接编码器特征与上采样结果。
3. 通道对齐：确保特征图长度一致（通过调整上采样或填充）。

代码示例：

# 编码器输出保存
enc1 = self.enc1(x)  # 形状 [N, 64, 100]

# 解码器拼接
dec1 = self.up1(bottleneck)          # 形状 [N, 128, 50]
dec1 = torch.cat([dec1, enc1], dim=1)  # 拼接后形状 [N, 192, 50]

5. 瓶颈层（Bottleneck）

位置：编码器与解码器之间，网络的最深层。
作用：
- 特征压缩：去除冗余信息，保留关键全局特征。
- 计算优化：减少解码器计算量。

代码示例：

# 编码器末端输出形状 [N, 128, 25]
bottleneck = Conv1D(filters=256, kernel_size=3)(x)  # 输出 [N, 256, 25]

三、数学原理与数值示例

1. 1D卷积运算

输入序列：x = [1, 3, 2, 4, 5]（长度=5）
卷积核：w = [2, -1]（大小=2）

输出计算：

y[0] = 1*2 + 3*(-1) = -1
y[1] = 3*2 + 2*(-1) = 4
y[2] = 2*2 + 4*(-1) = 0
y[3] = 4*2 + 5*(-1) = 3

输出序列：y = [-1, 4, 0, 3]（长度=4，padding='valid'）

2. 编码-解码流程

假设输入长度=100，各层操作如下：

层	操作	输出长度	通道数
输入层	-	100	1
编码器层1	Conv1D + MaxPooling	50	64
编码器层2	Conv1D + MaxPooling	25	128
瓶颈层	Conv1D	25	256
解码器层1	UpConv + 跳跃连接	50	128
解码器层2	UpConv + 跳跃连接	100	64
输出层	Conv1D	100	1

四、PyTorch代码实现

1. 完整模型代码

import torch
import torch.nn as nn

class DoubleConv(nn.Module):
    """双层卷积块"""
    def __init__(self, in_channels, out_channels):
        super().__init__()
        self.conv = nn.Sequential(
            nn.Conv1d(in_channels, out_channels, kernel_size=3, padding=1),
            nn.BatchNorm1d(out_channels),
            nn.ReLU(inplace=True),
            nn.Conv1d(out_channels, out_channels, kernel_size=3, padding=1),
            nn.BatchNorm1d(out_channels),
            nn.ReLU(inplace=True)
        )

    def forward(self, x):
        return self.conv(x)

class UNet1D(nn.Module):
    def __init__(self, input_channels=1, output_channels=1):
        super().__init__()
        # 编码器
        self.enc1 = DoubleConv(input_channels, 64)
        self.pool1 = nn.MaxPool1d(2)
        self.enc2 = DoubleConv(64, 128)
        self.pool2 = nn.MaxPool1d(2)
        
        # 瓶颈层
        self.bottleneck = DoubleConv(128, 256)
        
        # 解码器
        self.up1 = nn.ConvTranspose1d(256, 128, kernel_size=2, stride=2)
        self.dec1 = DoubleConv(256, 128)  # 输入通道=128(上采样)+128(跳跃连接)
        self.up2 = nn.ConvTranspose1d(128, 64, kernel_size=2, stride=2)
        self.dec2 = DoubleConv(128, 64)
        
        # 输出层
        self.out = nn.Conv1d(64, output_channels, kernel_size=1)

    def forward(self, x):
        # 编码器
        enc1 = self.enc1(x)          # 输入形状: [N, 1, 100]
        enc2 = self.enc2(self.pool1(enc1))
        
        # 瓶颈层
        bottleneck = self.bottleneck(self.pool2(enc2))  # 形状 [N, 256, 25]
        
        # 解码器
        dec1 = self.up1(bottleneck)                     # 形状 [N, 128, 50]
        dec1 = torch.cat([dec1, enc2], dim=1)           # 拼接后 [N, 256, 50]
        dec1 = self.dec1(dec1)
        
        dec2 = self.up2(dec1)                           # 形状 [N, 64, 100]
        dec2 = torch.cat([dec2, enc1], dim=1)           # 拼接后 [N, 128, 100]
        dec2 = self.dec2(dec2)
        
        return self.out(dec2)  # 输出形状 [N, 1, 100]

2. 使用示例

# 初始化模型
model = UNet1D(input_channels=1, output_channels=1)

# 模拟输入数据：batch_size=4，通道=1，序列长度=100
input_tensor = torch.randn(4, 1, 100)
output = model(input_tensor)
print(output.shape)  # 输出形状: torch.Size([4, 1, 100])