技术博客arXiv cs.AI·3 小时前

端侧神经架构搜索：在设备端实时优化微型神经网络

原标题：On-Device Neural Architecture Search

速览

本文提出一种新的近传感器计算方案，直接在部署设备上执行轻量级神经架构搜索（NAS），以寻找分析传感器实时数据的最佳微型神经网络。该方法特别适用于人机交互场景，可根据用户变化重新设计分析生物数据的神经网络，有效解决个体间的数据差异问题。通过在意大利手语数据集和凯斯西储大学数据集上的验证，该方法在树莓派4上运行，相比现有最先进水平，显著降低了内存占用并提高了准确率。

AI 深度解读

端侧神经架构搜索（On-Device Neural Architecture Search）深度解读

背景

在传统的机器学习部署流程中，模型架构的设计与训练通常发生在云端或高性能计算集群上，随后将训练好的模型部署到资源受限的边缘设备（如嵌入式系统、传感器节点）上。然而，这种“云端设计、边缘执行”的模式在面对特定场景时存在局限性，尤其是在**近传感器计算（Near-Sensor Computing）**领域。

随着物联网（IoT）和人机交互（HMI）技术的发展，设备需要实时处理来自生物传感器（如肌电图 sEMG）的数据。由于个体差异（例如不同用户的生理特征、信号噪声模式不同），预训练的通用模型往往难以在所有用户身上保持最佳性能。此外，边缘设备通常受限于内存（RAM）和计算能力，无法承载复杂的深度学习模型。

因此，如何在资源极度受限的端侧设备上，快速、自动地找到最适合当前硬件和特定数据分布的轻量级神经网络架构，成为了一个亟待解决的技术痛点。

核心内容

本文提出了一种全新的**端侧神经架构搜索（On-Device Neural Architecture Search, On-Device NAS）**方法。该方法的核心思想是直接在部署设备（即边缘端）上执行轻量级的 NAS 过程，以寻找能够分析传感器实时数据的最佳微型神经网络架构。

1. 方法论：近传感器计算的自适应能力

该研究旨在实现一种新的自适应能力，特别适用于人机接口场景。当用户发生变化时（例如从用户 A 切换为用户 B），通过分析生物特征数据，神经网络可以在引导式数据采集程序后重新设计。这种方法旨在从新的高度解决个体间典型的数据变异问题，从而提升模型的泛化能力和个性化精度。

2. 实验验证与数据集

为了验证所提出的 NAS 方法，研究团队在多个嵌入式系统上进行了实施和测试，主要使用了以下两个数据集：

意大利手语数据集（ISL, Italian Sign Language Dataset）：
- 包含意大利字母手语的**表面肌电图（sEMG）**信号集合。
- 用于验证在生物信号处理中的有效性。
凯斯西储大学数据集（CWRU, Case Western Reserve University Dataset）：
- 智能故障诊断领域的基准数据集。
- 用于展示该方法在其他潜在应用场景中的通用性。

3. 性能表现：在 Raspberry Pi 4 上的实测结果

研究团队在 Raspberry Pi 4（树莓派 4）这一典型的嵌入式设备上运行了所提出的 NAS 算法，并与现有最先进（State-of-the-Art, SOTA）方法进行了对比。结果如下：

在 ISL 数据集上：
- 内存占用：比 SOTA 方法减少了 0.63 倍（即内存占用仅为原来的约 37% 或显著降低，原文表述 "0.63 times less" 通常指相对优势或比例优化，此处理解为内存效率大幅提升）。
- 准确率：比 SOTA 方法高出 5.96 个百分点。
在 CWRU 数据集上：
- 内存占用：比 SOTA 方法减少了 0.44 倍。
- 准确率：比 SOTA 方法高出 0.2 个百分点。

这些结果表明，在资源受限的端侧设备上执行 NAS，不仅能找到更节省内存的微型架构，还能在保持甚至提升准确率方面超越传统的云端训练后部署方案。

关键要点

范式转变：从“云端训练+边缘部署”转变为“端侧自适应搜索”，允许设备根据实时数据和硬件约束动态优化模型结构。
解决个体差异：特别针对人机交互中因用户生理差异导致的信号变异问题，通过重新设计网络架构来提升个性化识别精度。
轻量化 NAS 设计：提出了一种专为嵌入式系统设计的轻量级 NAS 算法，能够在低算力设备上运行。
双重验证：
- 生物信号领域：通过意大利手语（sEMG）数据集验证了其在生物特征识别中的有效性。
- 工业领域：通过 CWRU 故障诊断数据集验证了其在工业智能监测中的潜在应用价值。
显著的性能优势：在 Raspberry Pi 4 上，该方法在内存效率上实现了数倍的优化，同时在准确率上取得了超越现有最先进水平的成果（特别是在 ISL 数据集上准确率提升近 6%）。

意义与影响

这项研究对边缘计算和人工智能的落地应用具有深远意义：

推动真正的人机融合：通过解决个体间数据变异的问题，该技术使得基于生物信号的人机接口（如假肢控制、手语翻译设备）能够更精准地适应不同用户，无需为每个用户单独在云端训练模型，降低了部署门槛和维护成本。
释放边缘设备的潜力：证明了在资源受限的嵌入式设备上进行模型架构搜索是可行的，且能产生优于传统部署的效果。这为在更多低功耗 IoT 设备上部署复杂的 AI 功能提供了新的技术路径。
数据隐私与实时性：由于搜索和适配过程在本地完成，敏感的生物特征数据无需上传至云端，既保护了用户隐私，又降低了网络延迟，满足了实时性要求极高的应用场景。
通用性启示：虽然主要案例集中在生物信号和故障诊断，但该框架的提出为其他需要个性化适配或数据分布动态变化的边缘 AI 应用（如可穿戴健康监测、智能农业传感器等）提供了可借鉴的解决方案。

查看原文 →arxiv.org