技术博客arXiv cs.AI·3 小时前

PMDformer：通过解耦信息Transformer提升长期时间序列预测精度

原标题：PMDformer: Patch-Mean Decoupling Information Transformer for Long-term Forecasting

速览

针对长期时间序列预测中因尺度差异导致形状相似性建模困难的问题，研究提出PMDformer模型。该模型引入补丁均值解耦技术分离趋势与残差，并结合趋势恢复注意力和邻近变量注意力机制，有效捕捉长程依赖和跨变量关系。实验表明，PMDformer在多个基准测试中在稳定性和准确性上均优于现有最先进方法。

AI 深度解读

PMDformer：基于补丁均值解耦信息的Transformer，重塑长期时间序列预测

背景

长期时间序列预测（Long-term Time Series Forecasting, LTSF）在能源管理、金融分析和交通预测等关键领域扮演着至关重要的角色。随着深度学习的发展，基于 Transformer 的模型因其强大的序列建模能力，逐渐成为 LTSF 领域的主流架构。

为了捕捉长距离依赖关系，现有的 Transformer 模型通常采用基于“补丁”（Patch-based）的策略，即将时间序列切分成多个小块进行处理。然而，这种策略在实际应用中面临一个核心挑战：尺度差异（Scale Differences）。由于不同变量或不同时间段的数值范围可能存在巨大差异，直接对补丁进行注意力计算往往难以准确捕捉其背后的“形状相似性”（Shape Similarities）。这种形状相似性对于理解时间序列的动态模式至关重要，但现有的方法往往因为数值尺度的干扰，导致注意力机制无法聚焦于真正的形态特征，从而限制了预测精度。

核心内容

针对上述挑战，研究人员提出了 PMDformer（Patch-Mean Decoupling Information Transformer）。该模型的核心创新在于引入了一种名为 补丁均值解耦（Patch-Mean Decoupling, PMD） 的机制，并辅以两个专门设计的注意力模块，旨在更有效地捕捉长期预测中的形状相似性和跨变量关系。

1. 补丁均值解耦 (PMD)

PMD 是 PMDformer 的基础组件。传统的补丁处理往往混合了趋势信息和残差形状信息，导致模型难以区分数值大小的变化与形态结构的变化。PMD 通过从每个补丁中减去其均值，将趋势信息和残差形状信息分离开来。

保留原始结构：通过减去均值，PMD 确保了时间序列的原始结构得以保留，消除了数值尺度对形状匹配的干扰。
精准捕捉形状相似性：解耦后的残差部分纯粹反映了序列的波动形态，使得注意力机制能够专注于捕捉真正的形状相似性，而非被数值大小误导。

2. 趋势恢复注意力 (Trend Restoration Attention, TRA)

在解耦之后，趋势信息并未被丢弃，而是通过 趋势恢复注意力（TRA） 模块重新整合。

动态整合：TRA 模块在计算注意力输出的同时，将 PMD 解耦出的趋势信息重新引入。
平衡形态与趋势：这种设计使得模型既能利用残差部分捕捉细微的形态变化，又能利用趋势部分把握整体的走向，从而在长期预测中实现更全面的建模。

3. 近端变量注意力 (Proximal Variable Attention, PVA)

为了进一步捕捉跨变量之间的关系并避免过拟合，PMDformer 提出了 近端变量注意力（PVA） 模块。

聚焦相关片段：PVA 将跨变量注意力集中在最相关、最近的时间片段上。
避免过时相关性：传统的跨变量注意力可能会受到过时或无关相关性的干扰，导致模型过拟合。PVA 通过限制注意力的范围，确保模型只关注那些对当前预测最有价值的近期历史数据，从而提高了模型的鲁棒性和泛化能力。

4. 整体架构与实验结果

PMDformer 结合了 PMD、TRA 和 PVA 这三个核心组件，专门设计用于在长期预测场景中有效捕捉形状相似性。

在多个 LTSF 基准测试上的广泛实验表明，PMDformer 在稳定性和准确性方面均优于现有的最先进（State-of-the-art）方法。其代码已开源，供社区进一步研究和复现。

关键要点

解决尺度干扰问题：PMDformer 通过补丁均值解耦（PMD）技术，成功分离了时间序列的趋势和残差形状信息，解决了因尺度差异导致的形状相似性建模难题。
双模块注意力机制：
- TRA（趋势恢复注意力）：在计算注意力的同时重新整合解耦出的趋势信息，平衡形态与整体趋势。
- PVA（近端变量注意力）：聚焦于最近且最相关的跨变量时间片段，避免模型对过时相关性的过拟合。
性能优势：在多个长期时间序列预测基准上，PMDformer 展现了比现有 SOTA 方法更高的稳定性和预测精度。
开源贡献：该研究的代码已公开，促进了长期时间序列预测领域的技术共享与迭代。

意义与影响

PMDformer 的提出为长期时间序列预测领域提供了一个新的视角，即**“形状”比“数值”更值得被关注**。在能源、金融和交通等领域，时间序列的波动模式（如周期性、突发性变化）往往比绝对数值更具预测价值。

方法论创新：通过 PMD 机制，该研究证明了在 Transformer 架构中显式地解耦趋势和残差是可行的且高效的。这为后续研究如何处理多尺度时间序列数据提供了新的思路。
提升模型鲁棒性：PVA 模块对“近端”信息的聚焦，有效缓解了长期预测中常见的噪声累积和过时信息干扰问题，提高了模型在复杂现实场景中的稳定性。
实际应用潜力：由于 LTSF 在关键基础设施和金融服务中的重要性，PMDformer 的高精度和稳定性有望直接应用于电网负荷预测、股票趋势分析、交通流量管理等高价值场景，为决策提供更可靠的数据支持。

总的来说，PMDformer 不仅是一个性能更强的预测模型，更是对 Transformer 在处理时间序列数据时如何更好地平衡“全局趋势”与“局部形态”的一次重要探索。

查看原文 →arxiv.org