论文阅读翻译-Instant Neural Graphics Primitives with a Multiresolution Hash Encoding

最新推荐文章于 2025-01-08 12:00:02 发布

Super__B

最新推荐文章于 2025-01-08 12:00:02 发布

阅读量1.6k

点赞数

文章标签：哈希算法论文阅读深度学习

本文链接：https://blog.csdn.net/weixin_45507599/article/details/129940677

版权

instant-ngp是一种由英伟达推出的快速训练方法，采用多分辨率哈希编码，能以小规模网络实现高质量渲染，减少计算和内存需求。该技术利用CUDA编程提升效率，通过隐式处理哈希冲突，适用于高分辨率图像渲染和神经辐射场(NeRF)等任务。实验表明，这种方法在保持质量的同时提高了性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

信息

instant-ngp是英伟达于2022年7月推出的一种快速训练方法，具有多分辨率哈希编码的即时神经图形原语，论文讲解视频：B站视频；设计了一个新的通用性的输入编码，它可以使用小型的网络同时又不会降低质量，小型的网络可以显著的减少浮点数的计算和内存访问，多分辨率的结构可以使网络自己处理哈希碰撞的问题，NGP使用了完全的cuda编程，更小的带宽浪费和更少的计算
1920x1080分辨率的图像可以在10ms完成渲染

Title：Instant Neural Graphics Primitives with a Multiresolution Hash Encoding
Paper：https://ar5iv.labs.arxiv.org/html/2201.05989

Code：https://nvlabs.github.io/instant-ngp

简介

文章设计了一种通用的输入编码方式降低全连接网络的时间成本，同时不牺牲质量的情况下可以使用小的网络结构来显著减少浮点数和内存访问操作的次数。核心点在于多分辨率的hash表，其中的值通过随机梯度下降优化并且通过神经网络就可以消除hash冲突；使用cuda编程速度更快。
为什么要对输入进行编码？
因为MLP拟合低频的特征更好，所以为了学得高频特征，不至于输出图像过于平滑，需要映射到更高维空间进行编码。
多分辨率hash表优点：

适用性好：将一系列网格映射到相应固定大小的特征向量阵列。粗分辨率：网格点到特征向量：1：1映射；细分辨率：阵列被视作hash表，用hash函数索引。（这种hash冲突是的训练梯度平均，与loss最相关的最大梯度占主导地位，于是hash表自动对最重要的精细尺度的稀疏区域优先级排序，与之前工作不同的是，在训练期间任何时候都不用对数据结构进行结构的更新）；
效率高：hash查找时间复杂度是O(1)，很好映射到GPU，看并行查询所有分辨率的hash表。

方法

多分辨率哈希编码

多分辨率哈希编码是论文核心部分，讲的就是如何对输入 $x$ 进行编码 $y=enc(x;\theta)$ 的过程，编码过程：
请添加图片描述超参数含义：
图中各顶点代表特征向量，每个向量长度为 $F$ ， $N_{l}$ 可以代表分辨率，最粗糙和最精细的取值范围： $N_{min},N_{max}]$ ，每一级 $l$ 的值可以缩放为如下公式， $b\in[1.26,2]$ 是生长因子，控制 $N_{l}$ 的值：
请添加图片描述

按分辨率缩放：考虑单个分辨率 $l$ 时，输入的 $x$ 按分辨率缩放为： $\lfloor{x_{l}}\rfloor:=\lfloor{x\cdot N_{l}}\rfloor$ , $\lceil{x_{l}}\rceil:=\lceil{x}\cdot N_{l}\rceil$ 。限制上下界，就可以固定在一个方格里面；
hash：其中每个顶点可以映射到长度为 $T$ 的特征向量数组。对于粗网络顶点数< $T$ ，则可以1:1映射；而对于精细网络需要用散列函数索引到数组(如下所示)，且不需要显示处理hash冲突；
d-线性插值：根据 $x$ 的相对位置，对每个顶点特征向量进行线性插值，插值权重是 $w_{l}:=x_{l}-\lfloor{x_{l}\rfloor}$ ；
拼接：把每一级 $l$ 插值结果拼接起来并加入辅助输入 $\xi\in R^{E}$ (如神经辐射中的视图方向和纹理)产生 $y\in R^{LF+E}$ ，这就是编码后的 $enc(x;\theta)$ 送入MLP $m(y;\Phi)$ 的输入；

隐式哈希冲突解决方案

不同 $x$ 坐标散列到特征向量数字同一索引时，产生冲突，但这种碰撞是伪随机分布，不太可能在给定的一对点的每个级别同时发生。
为什么作者说不用显式处理冲突？
答：相撞的两点对样本重建的重要性很少完全相等。比如说nerf中可见表面的一点对重建的图像有更大贡献(有高可见度和高密度，就会成倍影响梯度大小)，而空白的地方一点权重更小，最终就是重要的点梯度主导了冲突平均值，使得自然优化了这种冲突。