技术博客arXiv cs.AI·3 小时前

EpiEvolve：应对疫情 regime 切换的自进化流式预测智能体

原标题：EpiEvolve: Self-Evolving Agents for Streaming Pandemic Forecasting under Regime Shifts

速览

针对疫情预测中标签滞后和 regime 切换的挑战，研究提出EpiEvolve自进化智能体。该智能体通过分层情景记忆存储预测结果，结合延迟标签反思与 regime 感知检索，提炼策略规则以优化后续预测。实验显示，其在流式数据集上准确率远超静态基线和CDC集成模型，并大幅缩短 regime 切换后的恢复滞后时间。

AI 深度解读

EpiEvolve：应对疫情流变与制度转换的自进化预测智能体

背景

传统的流行病大语言模型（LLM）预测器通常被训练和评估为静态的监督学习模型。在这种范式下，模型在固定的数据集上进行训练，并在相同的分布下进行测试。然而，现实世界中的疫情预测是一个流式（streaming）过程：标签（即实际的确诊或住院数据）往往在预测之后才到达，且疾病的主导变异株和传播规律（即“制度 regime”）会随时间发生显著变化。

这种静态训练范式与动态流式预测需求之间存在巨大的错位。特别是在面对如 COVID-19 等不同变异株主导的多个“制度”转换时，静态模型难以适应新的流行病学特征，导致预测滞后和准确性下降。

核心内容

为了解决这一 mismatch（错位），研究人员提出了 EpiEvolve，这是一个专为流式疫情预测设计的自进化智能体（Self-Evolving Agent）。该研究以每周 COVID-19 住院趋势预测为实验场景，涵盖了五种不同的变异株制度 regime。

1. 架构设计：固定权重的 LLM 基础

EpiEvolve 的核心是一个基于 LLM 的预测器。与传统的微调不同，EpiEvolve 在“热启动”（warm-start）阶段训练该 LLM 预测器，但在随后的流式预测过程中，保持其模型权重固定。这意味着模型本身不会通过反向传播更新参数，而是通过外部机制来适应变化。

2. 自进化机制：分层情景记忆与反思

EpiEvolve 的适应能力来源于其独特的记忆和反思机制：

分层情景记忆（Hierarchical Episodic Memory）：智能体将预测结果存储在分层的情景记忆中。
延迟标签反思（Reflection on Delayed Labels）：当真实的标签数据延迟到达后，智能体会回顾之前的预测，分析偏差。
制度感知检索（Regime-Aware Retrieval）：在预测当前周期时，智能体会检索与当前疾病制度最相关的历史案例。
策略规则提炼（Distilling Strategic Rules）：智能体将反复出现的错误模式提炼为策略性规则，从而优化后续的预测逻辑。

3. 防止未来泄露的时序协议

为了确保预测的严谨性，EpiEvolve 遵循严格的时序协议。虽然智能体可以重用过去几周自身的预测和结果作为上下文，但该协议严格防止了“未来泄露”（future leakage），即确保模型不会无意中利用尚未发生的数据。

4. 实验结果

在流式数据集上的评估显示，EpiEvolve 的表现显著优于基线模型：

平均准确率：EpiEvolve 达到 0.629，而静态骨干模型为 0.561，外部 CDC 集成模型仅为 0.325。
恢复滞后时间：在制度转换（如新变异株出现）后，EpiEvolve 将预测恢复准确性的滞后时间从 5 周缩短至 2 周。

消融实验进一步证明，反思机制、策略性记忆和制度感知检索这三个组件各自对性能提升做出了贡献。

关键要点

范式转变：从静态监督学习转向流式、自适应的预测范式，更贴合现实世界中疫情数据的动态特性。
固定权重策略：通过固定 LLM 权重并依赖外部记忆机制进行适应，避免了在流式数据上持续微调带来的灾难性遗忘或过拟合风险。
记忆驱动的智能：利用分层情景记忆存储预测结果，并通过反思延迟到达的标签来提炼策略规则，实现了“从错误中学习”的闭环。
抗制度转换能力：通过制度感知检索机制，EpiEvolve 能够识别当前的疾病主导变异株制度，并快速调整预测策略，显著缩短了制度转换后的适应期。
显著的性能优势：相比静态模型和外部 CDC 集成模型，EpiEvolve 在准确率和响应速度上均有大幅提升，证明了自进化智能体在动态环境预测中的有效性。

意义与影响

EpiEvolve 的研究揭示了大语言模型在动态时间序列预测任务中的新潜力。它证明了即使在不更新模型内部参数的情况下，通过外部记忆机制和反思流程，LLM 也能展现出强大的适应能力和自我进化特性。

这一方法不仅适用于疫情预测，也为其他面临快速环境变化、数据分布漂移（distribution shift）和时间延迟反馈的领域（如金融预测、气候变化监测、供应链管理等）提供了新的技术思路。它强调了在构建 AI 系统时，除了模型架构本身，记忆机制、反思流程和时序约束在应对现实世界复杂性中的关键作用。

查看原文 →arxiv.org