← 返回信息流
技术博客arXiv cs.CL·3 小时前

TempoWave:多小波数字嵌入提升大模型时间序列预测精度

原标题:Speaking Numbers to LLMs: Multi-Wavelet Number Embeddings for Time Series Forecasting

速览

针对大语言模型在处理连续数值时存在的对齐问题,研究提出TempoWave插件式时间小波数字接口。该接口利用多小波多尺度系数构建逐位嵌入,使模型能同时捕捉局部波动与宏观结构。实验表明,该方法在多个基准测试中显著优于传统数值分词,实现了新的最先进预测性能。

AI 深度解读

对 LLM 说数字:用于时间序列预测的多小波数字嵌入

背景

大型语言模型(LLMs)在上下文感知的时间序列预测领域展现出巨大的吸引力。其核心优势在于能够整合异构的文本信号,从而利用强大的语义理解能力来处理复杂的数据模式。然而,LLMs 原生设计的离散化、面向语言的标记化(tokenization)和嵌入接口,与连续数值数据之间存在天然的错位。

这种错位导致了两个主要问题:

  1. 数值顺序受损:传统的文本标记方式往往无法准确保留数字之间的数学大小关系和排序逻辑。
  2. 预测可靠性下降:由于数值信息的失真,模型在进行精确预测时的表现往往不尽如人意。

现有的解决方案通常试图通过简单的数值分词或替代嵌入接口来弥合这一差距,但这些方法在处理多尺度时间序列特征时显得力不从心,难以同时兼顾局部细节与全局结构。

核心内容

为了解决上述问题,研究团队提出了 TempoWave,这是一种即插即用的时间小波数字接口。该技术的核心思想是将每一个标量观测值映射为由多小波、多尺度系数构建的逐位嵌入(digit-wise embeddings)。

技术原理

TempoWave 的工作原理可以概括为以下几个关键步骤:

  1. 直接覆盖标准标记表示: TempoWave 不依赖传统的文本分词器,而是直接覆盖 LLM 中的标准标记表示。这意味着它绕过了将数字转换为文本字符串再转换为标记的过程,直接从数值层面介入。

  2. 多小波多尺度系数构建: 每个标量观测值被分解为多小波(multi-wavelet)系数。这些系数捕捉了数据在不同尺度下的特征:

    • 细粒度局部波动:高频系数捕捉数据的短期变化和噪声。
    • 宏观全局结构:低频系数捕捉数据的长期趋势和整体形态。
  3. Transformer 兼容性: 生成的嵌入向量被设计为与 Transformer 架构完全兼容。这使得 LLM 能够以其自然的方式处理这些经过小波变换的数值嵌入,无需修改底层模型架构。

  4. 保持数值完整性: 在整个 LLM 管道中,TempoWave 确保了以下特性的维持:

    • 精确的数值格式:保留原始数据的精度。
    • 独特的数字身份:区分不同的数字位,避免信息混淆。
    • 对常见归一化操作的鲁棒性:无论数据是否经过标准化或归一化处理,嵌入表示都能保持稳定。

实验验证

研究团队在五个富含上下文的时间序列预测基准测试中评估了 TempoWave 的性能。实验结果表明:

  • 性能提升:TempoWave consistently(一致地)优于标准的数值标记化方法和替代嵌入接口。
  • 新基准:该方法在多个基准测试中取得了新的最先进(State-of-the-Art, SOTA)结果。

这些结果证实了数值接口是限制 LLM 时间序列预测能力的关键瓶颈,而基于原则的多分辨率嵌入能够更好地耦合 LLM 的上下文推理能力与精确的预测需求。

关键要点

  • 问题本质:LLMs 的离散文本接口与连续数值数据之间存在根本性不匹配,导致数值排序和预测可靠性受损。
  • 解决方案:提出 TempoWave,一种基于多小波、多尺度系数的逐位嵌入接口。
  • 核心机制
    • 直接覆盖标准标记表示,绕过传统分词。
    • 利用小波变换同时捕捉局部波动和全局结构。
    • 保持与 Transformer 架构的无缝兼容。
  • 优势特性
    • 保留精确的数值格式和数字身份。
    • 对数据归一化操作具有鲁棒性。
    • 即插即用,无需修改 LLM 底层架构。
  • 实验结果:在五个上下文丰富的时间序列预测基准上,TempoWave 超越了现有方法,达到新的 SOTA 水平。
  • 资源开放:代码和模型已公开,可供社区复现和使用。

意义与影响

TempoWave 的提出具有重要的理论和实践意义:

  1. 揭示关键瓶颈:研究明确指出,数值接口的设计是制约 LLM 在时间序列预测领域表现的关键瓶颈。这为后续研究指明了方向,即优化数值到嵌入的映射机制比单纯扩大模型规模更为重要。

  2. 多分辨率嵌入的价值:证明了多分辨率(multi-resolution)嵌入在耦合 LLM 上下文推理与精确预测方面的有效性。通过同时保留局部细节和全局结构,模型能够更全面地理解时间序列的动态特性。

  3. 促进跨模态融合:TempoWave 提供了一种标准化的方式,将连续数值数据无缝融入 LLM 的文本处理管道。这有助于推动 LLM 在金融、气象、物联网等依赖精确数值预测的领域的应用。

  4. 开源贡献:通过公开代码和模型,研究团队促进了社区的复现和创新,加速了该技术在更广泛场景下的落地和优化。

总之,TempoWave 不仅是一个具体的技术改进,更是对 LLM 如何处理数值数据这一根本问题的深刻反思。它展示了通过精心设计的嵌入接口,可以显著提升 LLM 在科学计算和工程预测任务中的性能。

查看原文 →arxiv.org