AI 资讯Hacker News·18 小时前

开源实验推动 JPEG XL 发展，重塑图像编码未来

原标题：Journey to JPEG XL: open-source experiments shaped the future of image coding

速览

JPEG XL 作为一种新兴的图像编码格式，其发展深受开源社区实验的影响。这些开源项目不仅验证了技术可行性，还推动了标准的完善。这一进程有望为未来的图像存储和传输带来更高效、高质量的解决方案。

AI 深度解读

Journey to JPEG XL：开源实验如何重塑图像编码的未来

背景

互联网的运行离不开图像。自万维网早期以来，视觉保真度与带宽限制之间就存在着持续的张力。几十年来，业界一直依赖 venerable（备受推崇的）JPEG 标准来实现图像的快速加载。尽管 JPEG 表现优异，但随着显示屏技术向高动态范围（HDR）和广色域（WCG）演进，该格式逐渐显露出其局限性。

JPEG XL（JXL）的诞生并非一条直线，而是一场长达十年的探索。这一过程通过一系列里程碑式的项目，对心理视觉建模、熵编码和优化等激进思想进行了测试。如今，随着 JPEG XL 在操作系统和专业标准中迅速普及，回顾那些使其成为可能的开源实验显得尤为重要。

核心内容

早期基础：2011–2017

研究始于理解现有技术的极限。团队并未直接着手编写新标准，而是先尝试改进现有标准并学习其局限性，从而为新范式的灵活性和效率奠定基础。

WebP Lossless 与 Brotli：有损 WebP 源自视频技术，而 2011 年推出的 WebP Lossless 则在架构和范围上做出了背离。团队首次引入了“熵图像”概念，这是一种创新方法，利用辅助图像来协调主视觉数据的静态熵码选择。随后，这一方法被重新应用于 Brotli 压缩格式中的数据驱动上下文建模，实现了丰富的上下文建模而无需牺牲解码速度。
Butteraugli 与 XYB 色彩空间：约 2014 年，团队意识到单纯的数学压缩指标（如 PSNR）已不足够，而简单的心理视觉近似值（如 SSIM）在色彩丰富的环境中也会失效。为此，团队构建了 Butteraugli 和 XYB 色彩空间，以模拟人类视觉系统在不同尺度下的边缘检测和拮抗色处理过程，从而更有效地压缩图像。
JPEG 1 的极限探索（Guetzli 与 Brunsli）：团队通过两个关键项目将传统的 JPEG 1 标准（ISO/IEC 10918，1992年引入）推向了极限。
- Guetzli (2016)：一种缓慢的高密度感知编码器，利用 Butteraugli 寻找最佳量化表，使传统 JPEG 文件大小减少 20-30%。
- Brunsli (2015)：专注于无损重新压缩，允许用户在不丢失任何原始数据位的情况下，将现有的 JPEG 重新打包为更小的体积。
- 在完成 JPEG XL 标准化后，团队于 2024 年回归 Guetzli 的范围，开发了 Jpegli，使其编码速度大幅提升并兼容 HDR。

这些项目从 WebP Lossless 的技术细节到 Guetzli 的心理视觉审计，提供的反馈至关重要。尽管团队始终瞄准最高的视觉保真度，但来自对细节要求极高的电子商务领域的反馈帮助团队完善了需求。

融合时期：2017–2019 PIK 时代与 2019 FUIF 整合

到 2017 年，团队拥有了强大的独立工具，是时候将它们融合在一起了。

PIK 的开源与提案：在开源 PIK 时，团队结合了 Brunsli 的效率和 Guetzli 的心理视觉优化。PIK 还引入了实时自适应量化场等其他优化措施，并构成了提交给 ISO 标准化组织的提案。
VarDCT 架构的诞生：委员会最终征集提案的要求推动了极致的密度，要求比特率低至 0.06 BPP（相当于互联网质量图像压缩率的 35 倍，相机输出压缩率的 80 倍）。这种范围的扩展 necessitated 格式和编码器的显著复杂化，导致了 Variable-block-size Discrete Cosine Transform（VarDCT，可变块大小离散余弦变换）架构的诞生，该架构至今仍是 JPEG XL 的核心。
PIK 与 FUIF 的合并：团队提议将 PIK 提案与 Cloudinary 的 FUIF（Free Universal Image Format）提案合并。PIK 在编码时使用类似 Brotli 的分布选择，而 FUIF 则在解码期间逐步细化编码。最终的 JPEG XL 标准成为了两者的最佳折衷：采用了 PIK 解码更快的分布选择与 FUIF 复杂的上下文树。这一合并标志着从传统的单一平台驱动标准化模式的 departure（背离），优先追求技术协同与合作。

JPEG XL 的现状：生态系统扎根

JPEG XL 的效率、心理视觉优化的质量、文件大小和编码速度正受到广泛关注。自下而上的采用正在各行业发生，最苛刻的领域正在引领潮流。由于其能够高效、稳健地处理高位深、高质量甚至无损数据，JPEG XL 已成为多个领域的基础：

摄影：用于 Digital Negative (DNG 1.7)、Apple 的 ProRAW 等。
医疗：被 DICOM（国际医学图像标准）采用。
出版：集成到未来版本的 PDF 和 EPUB 标准中。

生态系统正在迅速成熟。Adobe 的摄影软件、Apple 的 iOS、macOS 和 visionOS 均提供原生支持，Linux 发行版如 Ubuntu 以及 Microsoft 的 JPEG XL Image Extension for Windows 也提供支持。受 libjxl-tiny 启发的 Shikino High-Tech, Inc. 和 CAST 发布了首款用于 ASIC 和 FPGA 设计的商业 JPEG XL 编码器 IP 核心，旨在实现实时、低功耗的图像捕获。Safari (2023) 在主要浏览器中率先支持，而 Firefox 和 Chrome 目前仍保持实验性支持。

关键要点

迭代式创新：JPEG XL 的成功并非一蹴而就，而是基于从 2011 年到 2019 年长达十年的开源实验和中间功能里程碑（如 Guetzli、Brunsli、Brotli）的验证。
心理视觉模型的重要性：传统的数学压缩指标（PSNR）和简单的视觉近似（SSIM）已无法满足 HDR 和广色域需求，Butteraugli 和 XYB 色彩空间的引入解决了色彩丰富环境下的压缩难题。
开源协作的力量：JPEG XL 标准通过合并 PIK 和 FUIF 两个独立提案，打破了单一平台驱动的标准制定模式，实现了技术上的优势互补（PIK 的解码速度与 FUIF 的上下文建模）。
VarDCT 架构的核心地位：为了满足极致压缩率（低至 0.06 BPP）的要求，JPEG XL 采用了可变块大小离散余弦变换（VarDCT）架构，这是其区别于传统 JPEG 的关键技术特征。
广泛的行业采纳：JPEG XL 已超越单纯的网页图像格式，深入摄影（DNG, ProRAW）、医疗（DICOM）和出版（PDF, EPUB）等专业领域，并获得主流操作系统和浏览器的原生或实验性支持。
硬件生态的起步：随着 Shikino High-Tech 等公司推出商业编码器 IP 核心，JPEG XL 正逐步从软件层面走向硬件加速，为实时、低功耗应用奠定基础。

意义与影响

JPEG XL 的故事证明了长期规划的有效性，这种规划通过最小可行原型（MVP）和实用工具邀请开源社区的反馈，从而验证了技术方向。它表明，即使是小型研究团队，也能通过快速迭代（涉及成千上万次关于心理视觉建模、熵、编码速度和复杂性的实验）来创新解决方案。

从最初试图从 1992 年的 JPEG 1 标准中挤出更多字节，到如今通过 JPEG XL 建立数字成像的基础，这一历程不仅解决当前的带宽与画质矛盾，更希望为未来三十年的数字成像技术奠定基石。它展示了整个行业如何最终走向一个更高效、更美好的未来。

查看原文 →opensource.googleblog.com