ICML2026提出SEER框架,统一解决时序数据噪声异常缺失偏移
速览
ICML2026论文提出SEER框架,针对时间序列预测中噪声、异常、缺失和分布偏移等低质量数据问题,首次实现统一鲁棒建模。该框架通过动态Patch特征增强与智能劣质分块全局替换,克服了传统模型静态建模和抗干扰能力弱的缺陷。SEER能同时处理混合劣质数据,显著提升复杂工业场景下的时序预测精度与稳定性。
AI 深度解读
ICML 2026 | SEER:自动增强+替换Patch,同时搞定噪声、异常、缺失、分布偏移的新SOTA模型!
背景
时间序列预测是支撑金融经济研判、智慧交通调度、医疗健康监测、电力能源调控及环境气象预警等关键领域的核心基础技术。精准的长短期时序预测能够为行业资源动态调配、风险提前预警及智能化精准决策提供核心数据支撑,兼具极高的学术研究价值与工程落地价值。
在时序预测模型的发展历程中,传统模型存在显著局限:
- 传统循环神经网络(RNN、LSTM、GRU):依赖串行迭代计算,存在长距离时序依赖捕捉能力弱、并行度低、训练效率差的固有缺陷。
- CNN类模型:仅能聚焦局部邻域特征,无法有效建模长时序关联。
- 传统线性时序模型:泛化能力不足,难以适配复杂的非线性时序场景。
近年来,基于Patch(分块)建模的Transformer时序模型成为主流SOTA方案,代表性模型包括PatchTST、Triformer、Crossformer、xPatch等。这类模型通过创新性的时序切割思路,将连续完整的长时序序列均匀切分为若干具备完整局部语义的子序列分块(Patch),以Patch作为基础建模单元,高效捕捉长距离时序依赖关系,大幅提升了常规理想数据场景下的预测精度。
然而,在真实工业传感、户外监测、设备采集等落地场景中,时序数据在采集、传输、存储全过程极易受到外界环境干扰与设备硬件影响,几乎无法得到纯净、无缺陷的理想数据。普遍存在的低质量数据缺陷主要包括:
- 白噪声(White Noise):源于传感器抖动、电磁干扰等,服从高斯分布,模糊正常时序波动规律。
- 异常值(Anomalies):由设备故障或极端扰动产生,表现为离散单点或连续多段偏移,且通常无标注,属于无监督劣质干扰。
- 缺失值(Missing Values):源于传输中断或设备宕机,导致局部时序语义空缺和特征断层。
- 分布偏移(Distribution Shift):数据生成机制随时间、环境变化而演化,导致训练集与测试集分布不一致,是模型在真实场景性能骤降的核心隐性原因。
现有模型在面对上述多类型混合劣质数据时存在三大核心缺陷:
- Patch建模机制僵化:采用固定静态等分策略,无差别纳入所有分块,无法区分优质与劣质分块,导致劣质分块传递负向梯度信号,干扰特征拟合。
- 表征学习方式单一:传统Patch嵌入仅依赖单一线性投影,特征表达维度单一,易出现特征混淆,难以区分正常特征与干扰特征。
- 鲁棒性设计通用性差:现有鲁棒模型多为单一场景定制化(如DUET专注分布偏移,Merlin侧重缺失处理),无法同时兼容白噪声、异常、缺失、分布偏移四类混合劣质数据,限制了实际落地应用。
核心内容
针对上述痛点,来自ICML 2026的论文提出了名为SEER(Spatio-temporal Enhanced and Replacement framework)的基于Transformer的通用鲁棒时序预测框架。SEER首次实现了多类型低质量时序数据的统一鲁棒建模,其核心创新逻辑为“动态Patch特征增强 + 智能劣质分块全局替换”。
1. 整体架构与设计逻辑
SEER遵循“预处理降噪 → 特征增强 → 缺陷修复 → 特征细化 → 预测输出”的层级化设计,包含五大核心层级:
- 数据归一化预处理:引入可逆实例归一化(Reversible Instance Normalization),抹平数据分布差异,消除非平稳性干扰,同时保留可逆特性保证预测结果可还原。
- 双分支增强嵌入模块(AEM):负责从源头增强时序特征丰富度,构建全局优质修复原型。
- 可学习Patch替换鲁棒修复模块(LPRM):负责精准修复劣质时序缺陷,通过可微分计算逻辑规避梯度消失,实现端到端训练。
- 多头自注意力全局特征细化:融合全局与局部特征。
- 自适应降维预测头:压缩特征维度,过滤冗余信息,输出最终预测结果。
2. 增强嵌入模块(AEM):双分支差异化表征构建
AEM包含两个并行分支,兼顾细节与全局:
- 局部分支:增强块嵌入(局部特征精细化)
- Patch切分:将原始时序重构为Patch分块序列。
- MoE混合专家机制:摒弃传统单一线性嵌入,引入MoE构建多异构特征空间。
- 单专家线性映射:多个独立专家网络(线性投影层)提取差异化隐藏特征。
- 噪声门控路由机制:引入带高斯噪声的随机门控机制,通过KeepTopK操作筛选适配度最高的Top-k专家,保证路由稀疏性并提升训练稳定性。
- 多专家特征融合:采用“共享专家 + 路由专属专家”策略。共享专家提取通用基础规律,专属专家提取个性化局部语义,加权融合后输出增强块表征。
- 全局分支:增强序列嵌入(全局原型构建)
- 通道特征映射与核心聚合:通过线性映射、MLP升维及随机池化,聚合全通道全局有效信息,过滤局部干扰,生成全局核心原型令牌。
- 序列原型维度对齐扩展:通过广播拼接将全局原型适配到每个特征通道,再经MLP微调,生成适配各通道特性的全局修复原型,作为后续劣质分块替换的高质量基准。
3. 可学习Patch替换模块(LPRM):核心鲁棒性设计
LPRM模块分为两个递进阶段,全程采用可微分计算逻辑:
- 自动令牌质量筛选
- 令牌质量评分:通过可学习线性层与Sigmoid激活函数,为每个增强后的分块生成0-1区间的质量评分。
- 筛选掩码生成:基于预设阈值划分优劣分块。引入梯度分离的恒等矩阵设计,解决离散筛选操作无法回传梯度的难题,使筛选策略可嵌入端到端优化。
- 替换因果自注意力特征修复
- 劣质令牌全局替换:基于梯度感知掩码执行替换。当掩码值为1时保留原始增强特征(优质分块);当掩码值为0时,自动替换为对应通道的全局优质原型特征(劣质分块)。从根源上剔除噪声、异常、缺失等干扰,补全局部语义。
- 多头因果注意力(MCSA):将全局原型令牌拼接入时序序列前端,通过因果掩码保证时序预测的不可逆性(仅关注历史与全局原型),让修复后的分块融合全局上下文。
- 全局特征融合:通过常规多头自注意力机制(MSA)深度融合全局特征,消除替换后的特征断层,输出平滑统一的全局时序特征。
4. 实验验证与结果
- 数据集体系:涵盖三级验证体系——8大通用标准数据集(验证常规精度)、4类合成扰动数据集(验证抗干扰能力)、8类真实低质量工业数据集(验证落地鲁棒性)。
- 基线模型:对比了2023-2025年主流SOTA模型,包括DLinear、PatchTST、iTransformer、FredFormer、SRSNet、DUET、Amplifier、xPatch等。
- 性能表现:
- 多元时序预测:在45组核心实验参数中,SEER在34组取得MSE最优、39组取得MAE最优。相比2025年次优SOTA模型xPatch,MSE降低7.3%,MAE降低4.9%,在ETT电力等非平稳数据集上优势显著。
- 一元短时时序预测:在TFB基准测试中,MASE和msMAPE指标全面优于基线,有效规避噪声干扰,
