论文阅读【MM-PCQA: Multi-Modal Learning for No-reference Point Cloud Quality Assessment】-CSDN博客

本文链接：https://blog.csdn.net/weixin_45584892/article/details/131402003

论文提出了一种名为MM-PCQA的新框架，用于无参考点云质量评估。该方法结合点云和二维图像投影的特征，通过点云子模型生成和对称跨模态注意机制，提高了对几何和纹理失真的敏感性。实验表明，这种方法在多个数据集上表现优越，特别是在结构和纹理质量的识别上。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文阅读

MM-PCQA: Multi-Modal Learning for No-reference Point Cloud Quality Assessment

论文阅读

作者：Zicheng Zhang, Wei Sun, Xiongkuo Min, Member, IEEE, Quan Zhou, Jun He, Qiyuan Wang, and Guangtao Zhai, Senior Member, IEEE
来源：IJCAI2023
论文：paper
代码：code

摘要

之前的工作：使用单模态信息进行PCQA
- 从二维投影中提取
  - 优：投影图片包含丰富的纹理和语义信息
  - 缺：高度依赖视点
- 从三维点云中提取
  - 优：三维点云对几何畸变更为敏感，对视点不变性
  - 缺：没有纹理和语义信息
现在的工作：提出了一种新的多模式无参考点云质量评估(NR-PCQA)度量
- 将点云分成子模型来表示局部几何失真（基于点）
- 将点云渲染成二维图像投影进行纹理特征提取（基于图像）
- 采用对称跨模态注意融合多模态质量感知信息

Ⅰ引言

为什么采用多模态？
答：如下图所示，不同类型的失真对不同模态的视觉感知是不同的。点云模态对结构失真和几何下采样更为敏感，而无法识别纹理噪声；图像模态对颜色量化和颜色噪声引起的纹理失真更为敏感。
主要贡献：
- 提出了一种新的NR-PCQA (MM-PCQA)多模态学习框架，以交互地使用来自点云和图像模态的信息
- 为了保留局部模式的平滑度和粗糙度等信息，本文建议将点云分成子模型，而不是采样点作为点云编码器的输入。
- 为了更好地融合多模态特征，本文使用跨模态关注来建模，从两个模态中提取的质量感知特征之间的相互关系。
- 实验结果：
  
  PLCC SRCC KRCC
  SJTU 0.92 0.91 0.78
  WPC 0.83 0.83 0.64

	PLCC	SRCC	KRCC
SJTU	0.92	0.91	0.78
WPC	0.83	0.83	0.64

Ⅱ 相关工作

Quality Assessment for Point Cloud
Multi-modal Learning for Point Cloud

Ⅲ 原理

原理：首先将点云分割成子模型，放入点云编码器 $\theta_{P}$ 中。投影图像直接由彩色点云渲染，并放入图像编码器 $\theta_{I}$ 中。随后，在对称交叉模态注意(Symmetric Cross-Modality Attention)的帮助下，优化了质量感知编码器特征。最后，通过质量回归将特征拼接解码为最终质量分数。

A.准备工作

点云： $P=\{{g_{(i)},c_{(i)}\}}_{i=1}^N$ ，其中： $g_{(i)}∈\Bbb{R}^{1✕3}$ 为几何坐标, $c_{(i)}∈\Bbb{R}^{1✕3}$ 为RGB颜色信息， $N$ 为点数

模态：

$\hat{P}$ ：对原始几何坐标进行归一化得到点云模态，不含颜色信息
$I$ ：对彩色点云 $P$ 绘制成二维投影生成图像模态

B.点云特征提取

为了避免下采样带来的几何误差，并保持局部图案的平滑性和粗糙度，本文提出将点云分割成多个局部子模型来表示几何结构特征。

1.生成子模型

具体而言：

给定一个归一化点云 $\hat{P}$ ，采用最远点采样（FPS）来获得 $N_{\delta}$ 个锚点（anchor points） $\{\delta_{m}\}_{m=1}^{N_{\delta}}$
对于每个锚点 $\delta_{m}$ ，利用K近邻算法找到 $N_{s}$ 个近邻点，从而形成一个子模型：
$\begin{align}S=\{KNN_{k=N_{s}}(\delta_{m})\}_{m=1}^{N_{\delta}}\end{align}$

【注：】 $N_{\delta}✕N_{s} > N$ 确保子模型覆盖原始点云中足够多的点。
子模型生成过程如下图

2.特征提取

从 $N_{\delta}$ 个子模型中随机选择 $N_{p}$ 个子模型用于几何特征提取；
使用点云特征编码器 $\theta_{P}$ 将选择的子模型映射到质量感知嵌入空间：
$\begin{align} F_{P}=\{\theta_{P}(S_{l})\}_{l=1}^{N_{P}}\\ \tilde{F}_{P}=\frac{1}{{N_{P}}}\displaystyle\sum_{t=1}^{N_{P}} {F}_{P}^ l \end{align}$

其中： $F_{P}^l∈\Bbb{R}^{1✕C_{P}}$ 表示第l个子模型的质量嵌入(quality-aware embedding)， $C_{P}$ 表示点云编码器 $\theta_{P}(·)$ 输出通道的数量， $\tilde{F}_{P}^l∈\Bbb{R}^{1✕C_{P}}$ 表示平均池化后的结果。

C.图像特征提取

投影图像由随机视点的彩色点云渲染得到，保持固定的观看距离来保持纹理一致性。由于不同尺度上的纹理视觉质量是不同的，因此本文提出2D CNN 主干网络，利用多尺度质量感知特征，更好地模拟人类对纹理质量的感知。
假设二维CNN主干有 j 层，分层特征可以描述为：
$\begin{align} \theta_{I}(x)=\{\alpha_{1}(x)\oplus \alpha_{2}(x)···\oplus \alpha_{j}(x)\\ alpha_{k}(x)=GPA(L_{k}(x)),k∈\{1,...,j\} \end{align}$

其中： $\theta_{I}(·)$ 表示分层图像编码器， $\oplus(·)$ 表示级联操作，**GPA(·)**表示全局平均池化操作， $L_{k}(x)$ 表示第k层的全局平均池化操作， $\alpha_{k}(x)$ 表示从 $L_{k}(x)$ 平均池化特征
然后，使用分层图像编码器 $\theta_{I}(·)$ 将二维图像嵌入到质量感知空间中：
$\begin{align}F_{I}=\{\theta_{I}(I_{t})\}_{t=1}^{N_{I}}，\tilde{F}_{I}=\frac{1}{N_{I}}\displaystyle\sum_{t=1}^{N_{I}} {F}_{I}^ t\end{align}$
其中： $F_{I}^l∈\Bbb{R}^{1✕C_{I}}$ 表示第 t 个投影图像 $I_{t}$ 的质量嵌入(quality-aware embedding)， $C_{I}$ 表示二维图像编码器 $\theta_{I}(·)$ 输出通道的数量， $\tilde{F}_{I}^l∈\Bbb{R}^{1✕C_{I}}$ 表示平均池化后的结果。

D.对称跨模态注意

对称跨模态注意模块是为了研究点云和图像视觉质量特征之间的相互作用，用线性投影将 $F_{P}^l∈\Bbb{R}^{1✕C_{P}}$ 和 $F_{I}^l∈\Bbb{R}^{1✕C_{I}}$ 调整到同一维度：
$\begin{align}\hat{F}_{P}=W_{P}\tilde{F}_{P}, \hat{F}_{I}=W_{I}\tilde{F}_{I}\end{align}$
其中： $\hat{F}_{P}∈\Bbb{R}^{1✕C'}$ , $\hat{F}_{I}∈\Bbb{R}^{1✕C'}$ 表示调整后的特征， $W_{P},W_{I}$ 表示可学习的线性映射， $C^{'}$ 表示调整后的通道数量。
为了更好的探索模态之间的区别，加入了多头注意力模块：
$\begin{align} \Gamma(Q,K,V)=(h_{1}\oplus h_{2}···\oplus h_{n})\\ h_{\mu}=\beta(QW_{\mu}^Q,KW_{\mu}^K,VW_{\mu}^V)|_{\mu=1}^n\\ \beta(Q,K,V)= softmax(QK^T/\sqrt d)V \end{align}$

其中： $\Gamma(·)$ 表示多头注意力操作， $\beta(·)$ 表示注意力函数， $h_{\mu}$ 表示第 $\mu$ 个头， $W,W_{Q},W_{K},W_{V}$ 表示可学习的线性映射。

如图所示，双方模态进行交互学习，最终的质量嵌入可以通过对称跨模态注意模块获得的模态内特征和引导的多模态特征进行串联：
$\begin{align}\hat{F}_{Q}=\hat{F}_{P}\oplus \hat{F}_{I}\oplus \Psi(\hat{F}_{P},\hat{F}_{I})\end{align}$
其中： $\Psi(·)$ 表示对称跨模态注意操作， $\hat{F}_{Q}$ 表示最终的质量特征。

E.质量回归和损失函数

损失函数：
- 均方误差： $L_{MSE}=\frac{1}{n}\displaystyle\sum_{\eta=1}^{n} (q_{\eta} - q'_{\eta})^2$
  其中： $q_{\eta}$ 表示预测质量， $q'_{\eta}$ 表示标签，n是mini-batch的大小。
- 秩误差：
  $\begin{align} L_{rank}^{ij}=max(0,|q_{i} - q_{j}| - e(q_{i} - q_{j})·(q'_{i} - q'_{j})\\ e(q_{i} - q_{j})= \begin{cases} 1 , & { q_{i}≥q_{j}} \\ -1, & {q_{i}<q_{j}} \end{cases} \end{align}$
  
  其中：i，j是两个点云的相关索引，，秩误差可以表示为：
  $\begin{align} L_{rank}^ij=\frac{1}{n^2}\displaystyle\sum_{i=1}^{n}\displaystyle\sum_{j=1}^{n} L_{rank}^{ij} \end{align}$
【当点云的质量标签接近时，秩损失能更好地帮助模型区分质量差异】
+ 最终的损失函数是两个损失函数的加权和：
$\begin{align} Loss=\lambda_{1}L_{MSE}+\lambda_{2}L_{rank} \end{align}$

Ⅳ 实验结果

数据库：SJTU, WPC
实验设置：使用Adam优化器，权值衰减为1e-4，初始学习率设为5e-5。默认情况下，模型训练了50个epoch。我们设置点云子模型尺寸Ns为2048，设置 $N_{\delta}= N/Ns + 1$ 。将分辨率为1920×1080×3的投影图像随机裁剪成分辨率为224×224×3的图像块作为输入。实验过程中，每个点云随机选取6个子模型和4张投影图像。使用PointNet++作为点云编码器，使用分层ResNet50作为图像编码器，其中ResNet50使用ImageNet数据库上的预训练模型进行初始化。多头注意力模块采用8个头部，前馈维度设置为2048。lse和Lrank的权值 $\lambda_{1}$ 和 $\lambda_{2}$ 均设为1。
实验结果

消融实验：

参考

[1] Zhang Z, Sun W, Min X, et al. MM-PCQA: Multi-Modal Learning for No-reference Point Cloud Quality Assessment[J]. arXiv preprint arXiv:2209.00244, 2022.