← 返回信息流
技术博客arXiv cs.CL·2 小时前

FPGA CNN加速器实现基于工作负载的动态容错ProWAFT

原标题:ProWAFT: A ROMA-LPD Instance for Workload-Aware and Dynamic Fault Tolerance in FPGA-Based CNN Accelerators

速览

ProWAFT是针对边缘设备上能源和延迟受限的CNN推理场景设计的主动工作负载感知容错框架。它通过部分重构技术在可重构分区上选择性地应用TMR冗余,避免了全冗余或单纯反应恢复带来的性能和能量开销。框架能量化任务关键性、建模故障传播和重构开销,并优化延迟、能耗与可靠性风险的综合成本。在Xilinx Zynq UltraScale+ ZCU104平台上,结合500个任务追踪评价,在高成功率和接近基线吞吐量的同时,实现了比静态TMR和反应重构更低的综合成本。

AI 深度解读

ProWAFT:FPGA上CNN加速器中基于工作负载感知的动态容错机制——ROMA-LPD实例分析

背景

SRAM-based FPGA在能源和延迟受限的边缘CNN推理场景中提供了一种吸引力极强的平台,但瞬时故障(如单事件效应,Single Event Upset,简称SEU)会导致静默错误,严重影响可靠性。全冗余(如完整的三模冗余,Triple Modular Redundancy,简称TMR)能提升正确性,但会带来显著的性能和能耗开销,而反应式恢复(reactive recovery)可能会在关键路径上引入不可接受的延迟。

针对这一问题,提出了一种主动的工作负载感知容错框架——ProWAFT。该框架利用部分重构(partial reconfiguration)技术,在可重构分区上选择性地应用TMR。ProWAFT能够量化工作负载的临界性、建模故障传播和重构开销,并根据延迟、能耗和可靠性风险的最小化复合目标(composite objective)选择最优配置。

ProWAFT具体实现于Xilinx Zynq UltraScale+ ZCU104平台,配备六个可重构区域(six reconfigurable regions)。在基于ResNet-18、MobileNetV2和EfficientNet-Lite的500个任务轨迹(500-task trace)上进行评估,模拟时变SEU注入(time-varying SEU injection)条件。实验结果表明,ProWAFT在复合成本方面优于静态TMR和反应式重构,同时保持高任务成功率(high task success rate)和接近基线吞吐量(near-baseline throughput),在线决策开销低。

核心内容

Computer Science > Computation and Language
[Submitted on 2 Jul 2026]
Title: ProWAFT: A ROMA-LPD Instance for Workload-Aware and Dynamic Fault Tolerance in FPGA-Based CNN Accelerators

Abstract:SRAM-based FPGAs为边缘CNN推理提供了能量和延迟约束下的吸引力平台,但瞬时故障会引发静默错误,损害可靠性。总是开启的冗余(如完整TMR)提升正确性,但会造成显著性能和能耗开销,而反应式恢复可能在关键路径引入不可接受延迟。

我们提出ProWAFT,这是一个针对FPGA-based CNN加速器的主动工作负载感知容错框架,使用部分重构在可重构分区上选择性应用TMR。ProWAFT量化工作负载临界性,建模故障传播和重构开销,并根据最小化复合目标(延迟、能耗和可靠性风险)选择配置。

在Xilinx Zynq UltraScale+ ZCU104平台(六个可重构区域)上实现,针对从ResNet-18、MobileNetV2和EfficientNet-Lite派生的500个任务轨迹进行评估,在时变SEU注入条件下测试。ProWAFT的复合成本低于静态TMR和反应式重构,同时维持高任务成功率和接近基线吞吐量,在线决策开销低。

关键要点

  • 平台与挑战:SRAM-based FPGA适合边缘CNN推理,但瞬时故障(SEU)易导致静默错误;全TMR提供高可靠性但带来性能/能耗开销,反应式恢复延迟不可接受。
  • ProWAFT框架:主动工作负载感知容错,利用部分重构选择性TMR,量化临界性、建模故障传播与重构开销,选择最小化复合目标的配置(延迟+能耗+可靠性风险)。
  • 实现与评估:部署于Xilinx Zynq UltraScale+ ZCU104(六区域可重构);使用ResNet-18/MobileNetV2/EfficientNet-Lite的500任务轨迹;时变SEU注入测试;结果:复合成本优于静态TMR和反应式重构,高任务成功率、接近基线吞吐量、低在线决策开销。
  • 技术定位:实例化自ROMA-LPD(ROMA-LPD Instance),针对工作负载感知与动态容错设计。

意义与影响

ProWAFT为FPGA-based CNN加速器在边缘设备上的可靠性提供了一种平衡方案,在保证任务成功率的同时显著降低复合成本(性能、能耗、故障风险)。其主动、动态特性在时变故障环境(如辐射环境或边缘AI部署)中尤为适用,可直接应用于资源受限的CNN推理加速器,降低静默错误风险,缩短部署时间。实验平台ZCU104的普遍性使其易于迁移至其他类似FPGA,未来可扩展至更复杂模型或多加速器系统,进一步推动边缘AI的可靠性和可扩展性。

查看原文 →arxiv.org