AI 资讯Hacker News·2 天前

RGB值归一化该除以255还是256

原标题：Should you normalize RGB values by 255 or 256?

速览

在计算机视觉和深度学习的数据预处理阶段，将RGB像素值从0-255范围归一化到[0,1]是常见操作。本文分析了除以255与除以256两种方法的细微差异及其对模型训练和数值稳定性的潜在影响。

在编写图像处理程序时，一个常见的工作流是将图像数据转换为浮点数进行计算，处理完成后，再将修改后的像素保存为 8 位颜色值（8-bit colors）写入磁盘。在这个过程中，整数到浮点数的转换方式成为了一个值得探讨的技术细节。

通常有两种主要的转换方法，在 Python 和 NumPy 中表现为：

标准方法：将整数 0 映射为 0.0，将整数 255 映射为 1.0。这是 GPU 处理图像时采用的方式，也是大多数程序员的首选。
替代方法：添加 0.5 的偏置（bias），然后除以 256。在这种方法中，整数 0 被映射为 $0.5/256 \approx 0.001953125$。

尽管标准方法在逻辑上更直观（例如，黑色像素始终对应 0.0，无需记忆特定常数），但部分程序员仍倾向于使用替代方法。这篇文章深入探讨了这两种方法的数学原理、优缺点以及它们在量化理论中的定位。

标准方法（除以 255）的最大优势在于其逻辑简洁性。无论图像深度如何，黑色始终对应 0.0，白色始终对应 1.0。这使得代码逻辑与具体的位深解耦，提高了通用性。

然而，从数值分布的角度来看，标准方法存在一个视觉上的“怪异”之处。如果将 3 位整数（范围 [0..7]）映射到 [0,1] 区间，我们会发现标准公式的极端区间（即对应 0 和 7 的区间）超出了 [0,1] 的范围。

Bin（区间）宽度不均：在标准方法中，中间整数的浮点表示范围是均匀的，但两端的极端值（0 和 255）对应的浮点区间宽度只有中间值的一半。
极端值出现频率降低：这意味着在将浮点数转换回整数时，输出极端值（0 或 255）的难度更大。例如，如果生成均匀分布的 [0,1] 随机噪声并使用标准公式转换，值 0 和 255 出现的频率将只有其他整数的一半。

尽管存在上述统计偏差，作者认为在实际图像处理中，这通常不是问题：

无损往返转换：原始图像在 uint8 -> float -> uint8 的往返转换中是完全无损的。
舍入效应抵消：任何略大于 0.0 或 1.0 的结果值仍会舍入到正确的区间，从而平衡输出分布。
边界情况处理：即使处理过程将黑色像素推至负值（如减去 0.005），标准方法下的 trunc(255 * (-0.005) + 0.5) 结果仍为 0。因此，极端区间“较小”的事实并未导致逻辑错误。

替代方法（除以 256）的核心吸引力在于其数学上的对称性和精确性：

精确居中：替代方法将每个浮点值精确放置在两个整数的中间。例如，$128/256.0 = 0.5$，这是一个精确的二进制浮点数。
消除舍入误差：标准方法中，$128/255.0 \approx 0.501961$，存在微小的舍入误差，导致浮点值之间的距离略有不同。虽然这种误差极小（小于 $2^{-23}$），在大多数图像处理任务中可忽略不计，但对于追求极致数值稳定性的应用来说，替代方法提供了更均匀的间距。
抖动（Dithering）便利性：正如 Andrew Kesler 在 2015 年的文章《Converting Color Depth》中指出的，替代方法在进行抖动处理时更为方便，因为无需担心边界情况，噪声可以随意添加而不会破坏分布的一致性。

从信号处理的量化理论来看，这两种方法代表了两种不同的均匀标量量化器：

Mid-tread（中踏式）量化器：具有零值重建电平（对应楼梯的踏板）。替代方法（除以 256）属于此类，它将 0 映射到两个整数的中间，具有 $L=256$ 个输出电平。
Mid-riser（中升式）量化器：具有零值分类阈值（对应楼梯的踢面）。标准方法（除以 255）本质上是一种针对无符号输入的“混合”量化器，它强行将 0 映射为 0.0，将 255 映射为 1.0，对应 $L=255$ 个有效间隔。

标准方法被批评为一种“非最优”的组合，因为它为了编程便利性（0.0 到 1.0 的范围）而牺牲了量化效率。如果输入是均匀分布的实数，标准方法实际上浪费了带宽，因为其可表示的范围 $[-0.5/255, 255.5/255]$ 略大于必要的 [0,1] 范围，导致区间间距比严格需要的更宽。

逻辑 vs. 数值：标准方法（/255）在代码逻辑上更直观，黑色恒为 0.0；替代方法（/256）在数值分布上更均匀，消除了舍入误差。
极端值偏差：标准方法导致 0 和 255 的量化区间宽度减半，理论上会降低极端值的出现频率，但在实际图像处理中，由于舍入机制，这一影响通常被抵消。
精度差异：替代方法能产生精确的二进制浮点数（如 0.5），而标准方法会产生无限循环小数，引入微小的浮点误差。
量化器分类：
- 除以 256 是标准的 Mid-tread 量化器（$L=256$）。
- 除以 255 是一种针对无符号数据的非标准 Mid-riser 变体（$L=255$ 间隔），为了 API 便利性牺牲了量化效率。
适用场景：
- 通用图像处理、GPU 渲染：推荐使用 标准方法（/255），因其符合直觉且被硬件广泛支持。
- 高精度数值计算、抖动算法、信号处理：推荐使用 替代方法（/256），因其数值对称性和无舍入误差特性。

这一讨论揭示了计算机图形学和数值计算中一个经典的权衡：API 的易用性与数学的纯粹性之间的冲突。

对开发者的启示：大多数开发者应继续使用除以 255 的标准方法，因为它是行业标准，且其微小的数值偏差在绝大多数视觉应用中不可感知。然而，在进行涉及噪声生成、抖动或高精度数值模拟的高级算法开发时，意识到除以 256 的数学优势可能有助于避免潜在的边界条件错误。
对硬件设计的反思：GPU 广泛采用除以 255 的方法，表明硬件设计优先考虑了人类直觉和编程便利性，而非严格的量化理论最优解。
理论价值：通过引入 Mid-riser 和 Mid-tread 量化器的概念，文章将看似琐碎的代码细节提升到了信号处理理论的高度，强调了理解底层数据表示对于构建鲁棒算法的重要性。

总之，虽然除以 255 在理论上并非完美的量化方案，但其在工程实践中的便利性使其成为主流选择。而在追求极致数值稳定性的特定领域，除以 256 则提供了更优雅的数学基础。