开源实验推动 JPEG XL 发展,重塑图像编码未来
速览
JPEG XL 作为一种新兴的图像编码格式,其发展深受开源社区实验的影响。这些开源项目不仅验证了技术可行性,还推动了标准的完善。这一进程有望为未来的图像存储和传输带来更高效、高质量的解决方案。
AI 深度解读
Journey to JPEG XL:开源实验如何重塑图像编码的未来
背景
互联网的运行离不开图像。自万维网早期以来,视觉保真度与带宽限制之间就存在着持续的张力。几十年来,业界一直依赖 venerable(备受推崇的)JPEG 标准来实现图像的快速加载。尽管 JPEG 表现优异,但随着显示屏技术向高动态范围(HDR)和广色域(WCG)演进,该格式逐渐显露出其局限性。
JPEG XL(JXL)的诞生并非一条直线,而是一场长达十年的探索。这一过程通过一系列里程碑式的项目,对心理视觉建模、熵编码和优化等激进思想进行了测试。如今,随着 JPEG XL 在操作系统和专业标准中迅速普及,回顾那些使其成为可能的开源实验显得尤为重要。
核心内容
早期基础:2011–2017
研究始于理解现有技术的极限。团队并未直接着手编写新标准,而是先尝试改进现有标准并学习其局限性,从而为新范式的灵活性和效率奠定基础。
- WebP Lossless 与 Brotli:有损 WebP 源自视频技术,而 2011 年推出的 WebP Lossless 则在架构和范围上做出了背离。团队首次引入了“熵图像”概念,这是一种创新方法,利用辅助图像来协调主视觉数据的静态熵码选择。随后,这一方法被重新应用于 Brotli 压缩格式中的数据驱动上下文建模,实现了丰富的上下文建模而无需牺牲解码速度。
- Butteraugli 与 XYB 色彩空间:约 2014 年,团队意识到单纯的数学压缩指标(如 PSNR)已不足够,而简单的心理视觉近似值(如 SSIM)在色彩丰富的环境中也会失效。为此,团队构建了 Butteraugli 和 XYB 色彩空间,以模拟人类视觉系统在不同尺度下的边缘检测和拮抗色处理过程,从而更有效地压缩图像。
- JPEG 1 的极限探索(Guetzli 与 Brunsli):团队通过两个关键项目将传统的 JPEG 1 标准(ISO/IEC 10918,1992年引入)推向了极限。
- Guetzli (2016):一种缓慢的高密度感知编码器,利用 Butteraugli 寻找最佳量化表,使传统 JPEG 文件大小减少 20-30%。
- Brunsli (2015):专注于无损重新压缩,允许用户在不丢失任何原始数据位的情况下,将现有的 JPEG 重新打包为更小的体积。
- 在完成 JPEG XL 标准化后,团队于 2024 年回归 Guetzli 的范围,开发了 Jpegli,使其编码速度大幅提升并兼容 HDR。
这些项目从 WebP Lossless 的技术细节到 Guetzli 的心理视觉审计,提供的反馈至关重要。尽管团队始终瞄准最高的视觉保真度,但来自对细节要求极高的电子商务领域的反馈帮助团队完善了需求。
融合时期:2017–2019 PIK 时代与 2019 FUIF 整合
到 2017 年,团队拥有了强大的独立工具,是时候将它们融合在一起了。
- PIK 的开源与提案:在开源 PIK 时,团队结合了 Brunsli 的效率和 Guetzli 的心理视觉优化。PIK 还引入了实时自适应量化场等其他优化措施,并构成了提交给 ISO 标准化组织的提案。
- VarDCT 架构的诞生:委员会最终征集提案的要求推动了极致的密度,要求比特率低至 0.06 BPP(相当于互联网质量图像压缩率的 35 倍,相机输出压缩率的 80 倍)。这种范围的扩展 necessitated 格式和编码器的显著复杂化,导致了 Variable-block-size Discrete Cosine Transform(VarDCT,可变块大小离散余弦变换)架构的诞生,该架构至今仍是 JPEG XL 的核心。
- PIK 与 FUIF 的合并:团队提议将 PIK 提案与 Cloudinary 的 FUIF(Free Universal Image Format)提案合并。PIK 在编码时使用类似 Brotli 的分布选择,而 FUIF 则在解码期间逐步细化编码。最终的 JPEG XL 标准成为了两者的最佳折衷:采用了 PIK 解码更快的分布选择与 FUIF 复杂的上下文树。这一合并标志着从传统的单一平台驱动标准化模式的 departure(背离),优先追求技术协同与合作。
JPEG XL 的现状:生态系统扎根
JPEG XL 的效率、心理视觉优化的质量、文件大小和编码速度正受到广泛关注。自下而上的采用正在各行业发生,最苛刻的领域正在引领潮流。由于其能够高效、稳健地处理高位深、高质量甚至无损数据,JPEG XL 已成为多个领域的基础:
- 摄影:用于 Digital Negative (DNG 1.7)、Apple 的 ProRAW 等。
- 医疗:被 DICOM(国际医学图像标准)采用。
- 出版:集成到未来版本的 PDF 和 EPUB 标准中。
生态系统正在迅速成熟。Adobe 的摄影软件、Apple 的 iOS、macOS 和 visionOS 均提供原生支持,Linux 发行版如 Ubuntu 以及 Microsoft 的 JPEG XL Image Extension for Windows 也提供支持。受 libjxl-tiny 启发的 Shikino High-Tech, Inc. 和 CAST 发布了首款用于 ASIC 和 FPGA 设计的商业 JPEG XL 编码器 IP 核心,旨在实现实时、低功耗的图像捕获。Safari (2023) 在主要浏览器中率先支持,而 Firefox 和 Chrome 目前仍保持实验性支持。
关键要点
- 迭代式创新:JPEG XL 的成功并非一蹴而就,而是基于从 2011 年到 2019 年长达十年的开源实验和中间功能里程碑(如 Guetzli、Brunsli、Brotli)的验证。
- 心理视觉模型的重要性:传统的数学压缩指标(PSNR)和简单的视觉近似(SSIM)已无法满足 HDR 和广色域需求,Butteraugli 和 XYB 色彩空间的引入解决了色彩丰富环境下的压缩难题。
- 开源协作的力量:JPEG XL 标准通过合并 PIK 和 FUIF 两个独立提案,打破了单一平台驱动的标准制定模式,实现了技术上的优势互补(PIK 的解码速度与 FUIF 的上下文建模)。
- VarDCT 架构的核心地位:为了满足极致压缩率(低至 0.06 BPP)的要求,JPEG XL 采用了可变块大小离散余弦变换(VarDCT)架构,这是其区别于传统 JPEG 的关键技术特征。
- 广泛的行业采纳:JPEG XL 已超越单纯的网页图像格式,深入摄影(DNG, ProRAW)、医疗(DICOM)和出版(PDF, EPUB)等专业领域,并获得主流操作系统和浏览器的原生或实验性支持。
- 硬件生态的起步:随着 Shikino High-Tech 等公司推出商业编码器 IP 核心,JPEG XL 正逐步从软件层面走向硬件加速,为实时、低功耗应用奠定基础。
意义与影响
JPEG XL 的故事证明了长期规划的有效性,这种规划通过最小可行原型(MVP)和实用工具邀请开源社区的反馈,从而验证了技术方向。它表明,即使是小型研究团队,也能通过快速迭代(涉及成千上万次关于心理视觉建模、熵、编码速度和复杂性的实验)来创新解决方案。
从最初试图从 1992 年的 JPEG 1 标准中挤出更多字节,到如今通过 JPEG XL 建立数字成像的基础,这一历程不仅解决当前的带宽与画质矛盾,更希望为未来三十年的数字成像技术奠定基石。它展示了整个行业如何最终走向一个更高效、更美好的未来。
