Deployment-Aligned Low-Precision Neural Architecture Search for Spaceborne Edge AI

TL;DR

通过部署一致的低精度神经架构搜索，提升空间边缘AI的精度和效率，mIoU达0.826。

cs.CV 🔴 高级 2026-04-27 36 次浏览

Parampuneet Kaur Thind Vaibhav Katturu Giacomo Zema Roberto Del Prete

神经架构搜索低精度训练边缘计算空间AI 硬件感知优化

核心发现

方法论

本文提出了一种将部署一致的低精度训练直接整合到硬件感知神经架构搜索（NAS）中的方法。候选架构在微调和评估过程中暴露于FP16数值约束下，从而在不修改搜索空间或进化策略的情况下，联合优化架构效率和数值鲁棒性。该方法特别适用于地球观测任务中的船舶分割，目标硬件为Intel Movidius Myriad X视觉处理单元（VPU）。

关键结果

结果1：在船舶分割任务中，部署一致的低精度训练在Intel Movidius Myriad X VPU上实现了0.826的mIoU，而后训练精度转换则将设备性能从0.85降低到0.78 mIoU。
结果2：在相同架构（95,791个参数）下，部署一致的低精度训练恢复了大约三分之二的精度损失，而不增加模型复杂性。
结果3：与GPU优化相比，部署一致的数值约束显著减少了优化与部署之间的性能差距，同时保持了紧凑的模型尺寸和实时执行能力。

研究意义

该研究通过在硬件感知的NAS中引入部署一致的数值约束，显著提高了资源受限的边缘AI的鲁棒性和优化与部署之间的一致性。这种方法在地球观测任务中具有重要意义，特别是在需要快速和自主决策的空间系统中。通过减少精度损失并保持模型紧凑性，该方法为在低功耗、低内存的边缘设备上部署深度学习模型提供了新的可能性。

技术贡献

本文的技术贡献在于首次将部署一致的低精度训练整合到硬件感知的NAS中，从而在不修改搜索空间或进化策略的情况下，优化架构的效率和数值鲁棒性。与现有方法相比，该方法在优化过程中直接考虑了FP16数值约束，显著减少了优化与部署之间的性能差距，提供了新的工程可能性。

新颖性

该研究首次在NAS过程中直接引入部署一致的低精度训练，而不是将其作为后处理步骤。这种创新使得在优化过程中考虑了部署时的数值约束，从而提高了模型在实际部署中的鲁棒性和性能。

局限性

局限1：该方法主要针对FP16数值约束进行优化，可能不适用于其他低精度格式或更复杂的数值约束场景。
局限2：虽然该方法在特定任务和硬件上表现良好，但其通用性和在其他任务上的适用性仍需进一步验证。
局限3：由于需要在NAS过程中进行低精度训练，计算成本可能较高，尤其是在大规模搜索空间中。

未来方向

未来的研究方向包括探索该方法在其他低精度格式和更复杂数值约束下的适用性，以及在不同任务和硬件平台上的通用性。此外，还可以研究如何在更大规模的搜索空间中降低计算成本，同时保持优化与部署的一致性。

AI 总览摘要

在现代空间任务中，快速和自主的决策能力变得至关重要，尤其是在地球观测任务中。然而，传统的神经网络架构在部署到边缘设备时，往往会因为数值精度的转换而导致性能下降。现有的硬件感知神经架构搜索（NAS）方法通常在全精度下进行优化，然后在部署时进行低精度转换，这种方法无法有效解决优化与部署之间的性能差距。

本文提出了一种新的方法，将部署一致的低精度训练直接整合到硬件感知的NAS中。通过在微调和评估过程中引入FP16数值约束，候选架构在不修改搜索空间或进化策略的情况下，能够同时优化架构效率和数值鲁棒性。这种方法特别适用于地球观测任务中的船舶分割，目标硬件为Intel Movidius Myriad X视觉处理单元（VPU）。

在实验中，本文的方法在船舶分割任务中实现了显著的性能提升。与传统的后训练精度转换相比，部署一致的低精度训练在相同架构下恢复了大约三分之二的精度损失，而不增加模型复杂性。这表明，通过在优化过程中直接考虑部署时的数值约束，可以显著提高模型在实际部署中的鲁棒性和性能。

这种方法的意义在于，它为在低功耗、低内存的边缘设备上部署深度学习模型提供了新的可能性。通过减少精度损失并保持模型紧凑性，该方法在需要快速和自主决策的空间系统中具有重要应用前景。

然而，该方法也存在一些局限性。首先，它主要针对FP16数值约束进行优化，可能不适用于其他低精度格式或更复杂的数值约束场景。此外，虽然该方法在特定任务和硬件上表现良好，但其通用性和在其他任务上的适用性仍需进一步验证。

深度分析

研究背景

随着深度学习的快速发展，神经架构搜索（NAS）已成为自动设计深度神经网络的重要方法。硬件感知的NAS通过将设备级性能指标（如延迟、吞吐量或内存占用）直接纳入优化循环，使得架构选择能够考虑部署约束。然而，尽管明确考虑了硬件特性，大多数硬件感知的NAS管道仍在全精度浮点（FP32）训练假设下优化候选架构，并在搜索完成后才适应低精度硬件。这种解耦导致了优化时间行为与低精度边缘加速器上的部署时间执行之间的系统性不匹配，通常会导致模型部署后精度显著下降。

核心问题

在地球观测任务中，快速和自主的决策能力变得至关重要。传统的地球观测管道依赖于将原始或经过最小处理的图像下传到地面站，这种方法由于有限的可视窗口、带宽限制和需要多次地面站传输而引入延迟。最近的任务和演示表明，直接在板上进行推理可以显著减少这些延迟。然而，这种向板上智能的转变对用于数据处理的计算资源提出了严格的限制。特别是小型卫星和立方体卫星在功耗、内存占用和处理吞吐量方面都受到严格限制，需要既紧凑又高效的深度学习模型。

核心创新

本文的核心创新在于将部署一致的低精度训练直接整合到硬件感知的NAS中，而不是将其作为后处理步骤。这种创新使得在优化过程中考虑了部署时的数值约束，从而提高了模型在实际部署中的鲁棒性和性能。具体来说，候选架构在微调和评估过程中暴露于FP16数值约束下，从而在不修改搜索空间或进化策略的情况下，联合优化架构效率和数值鲁棒性。

方法详解

�� 搜索空间：定义为一个离散搜索空间，由最多n=6个可配置块组成的单路径网络组成。每个块从卷积原语和宏块库中采样。

�� 进化算法设置：使用种群大小s=16和G=10代的进化NAS策略。

�� 设备内循环评估：每个候选架构被导出为FP16 OpenVINO中间表示（IR），并在Intel Movidius Myriad X VPU上执行，直接测量吞吐量和延迟。

�� 部署一致的低精度训练：每个候选架构在FP32上训练10个周期，然后在FP16感知的训练下进行微调10个周期。

实验设计

所有实验均使用HRSC2016数据集进行，该数据集是一个用于高分辨率船舶检测和分割的公开基准。数据集主要由Google Earth收集的图像组成，地面采样距离从约0.4米到2米不等。图像尺寸差异显著，从大约1000像素到超过1000像素不等。实验中，所有候选架构在AMD Radeon GPU上使用全精度（FP32）算术进行训练。部署时间评估在Intel Movidius Myriad X上进行，这是一个代表性的小功率边缘加速器。

结果分析

在实验中，部署一致的低精度训练在船舶分割任务中实现了显著的性能提升。与传统的后训练精度转换相比，部署一致的低精度训练在相同架构下恢复了大约三分之二的精度损失，而不增加模型复杂性。这表明，通过在优化过程中直接考虑部署时的数值约束，可以显著提高模型在实际部署中的鲁棒性和性能。

应用场景

该方法特别适用于地球观测任务中的船舶分割，目标硬件为Intel Movidius Myriad X视觉处理单元（VPU）。通过减少精度损失并保持模型紧凑性，该方法在需要快速和自主决策的空间系统中具有重要应用前景。

局限与展望

该方法主要针对FP16数值约束进行优化，可能不适用于其他低精度格式或更复杂的数值约束场景。此外，虽然该方法在特定任务和硬件上表现良好，但其通用性和在其他任务上的适用性仍需进一步验证。由于需要在NAS过程中进行低精度训练，计算成本可能较高，尤其是在大规模搜索空间中。

通俗解读非专业人士也能看懂

想象一下你在厨房里做饭。你需要在有限的时间内用有限的食材做出美味的菜肴。现在，假设你有一个智能助手，它可以根据你手头的食材和时间，自动为你设计出最佳的食谱。这就是神经架构搜索（NAS）的作用，它帮助我们自动设计出最优的神经网络架构。

然而，在实际使用中，我们常常需要在不同的厨房（硬件）中做饭，而每个厨房的设备和条件都不一样。有些厨房可能只有小火炉（低精度硬件），而我们在设计食谱时却假设有大火炉（全精度硬件）。这就导致了在实际做饭时，菜肴的味道可能会大打折扣。

本文的方法就像是在设计食谱时，已经考虑到了不同厨房的条件。这样一来，无论是在大火炉还是小火炉中做饭，菜肴的味道都能得到保证。这种方法特别适用于需要快速和自主决策的空间任务中，比如在卫星上进行船舶监测。

通过这种方法，我们可以在不增加食材（模型复杂性）的情况下，做出更美味的菜肴（提高模型的精度和效率）。这为在资源受限的环境中部署深度学习模型提供了新的可能性。

简单解释像给14岁少年讲一样

嘿，小伙伴们！想象一下你在玩一个超级酷的游戏，你需要在有限的时间内用有限的资源打败敌人。你有一个智能助手，它可以根据你手头的资源和时间，自动为你设计出最佳的策略。这就是神经架构搜索（NAS）的作用，它帮助我们自动设计出最优的神经网络架构。

但是，问题来了！在实际游戏中，我们常常需要在不同的设备上玩，而每个设备的性能都不一样。有些设备可能只有低画质（低精度硬件），而我们在设计策略时却假设有高画质（全精度硬件）。这就导致了在实际游戏时，可能会出现卡顿或掉帧。

本文的方法就像是在设计策略时，已经考虑到了不同设备的性能。这样一来，无论是在高画质还是低画质设备上玩游戏，游戏体验都能得到保证。这种方法特别适用于需要快速和自主决策的任务中，比如在卫星上进行船舶监测。

通过这种方法，我们可以在不增加资源（模型复杂性）的情况下，打出更高的分数（提高模型的精度和效率）。这为在资源受限的环境中部署深度学习模型提供了新的可能性。

术语表

神经架构搜索 (Neural Architecture Search)

一种自动设计神经网络架构的方法，通过在预定义的搜索空间中优化架构以满足特定任务的需求。

在本文中，用于设计满足部署约束的高效神经网络。

硬件感知优化 (Hardware-Aware Optimization)

在优化过程中考虑硬件特性和限制，以选择适合特定设备的架构。

用于在NAS过程中考虑设备级性能指标。

低精度训练 (Low-Precision Training)

在训练过程中使用低精度数值格式（如FP16）以减少计算成本和内存占用。

在本文中，直接整合到NAS中以提高部署时的数值鲁棒性。

FP16 (Half-Precision Floating Point)

一种16位浮点数格式，用于减少计算和存储需求，特别是在资源受限的硬件上。

在本文中，用于模拟部署时的数值约束。

进化算法 (Evolutionary Algorithm)

一种基于自然选择和遗传机制的优化算法，用于在搜索空间中寻找最优解。

在本文中，用于在NAS过程中生成和评估候选架构。

设备内循环评估 (Device-in-the-Loop Evaluation)

在目标硬件上直接评估候选架构的性能，以捕捉硬件特定的行为。

用于在NAS过程中测量候选架构的吞吐量和延迟。

后训练精度转换 (Post-Training Quantization)

在模型训练完成后，将模型转换为低精度格式以减少计算成本。

在本文中，与部署一致的低精度训练进行比较。

船舶分割 (Vessel Segmentation)

一种图像处理任务，旨在从图像中识别和分割船舶。

在本文中，作为实验任务用于评估方法的有效性。

地球观测 (Earth Observation)

通过卫星或其他设备从太空中获取地球表面信息的过程。

在本文中，作为应用场景之一。

Intel Movidius Myriad X

一种低功耗视觉处理单元（VPU），用于边缘设备上的神经网络推理。

在本文中，作为目标硬件进行实验评估。

开放问题这项研究留下的未解疑问

1 尽管本文的方法在特定任务和硬件上表现良好，但其在其他低精度格式和更复杂数值约束下的适用性仍需进一步验证。这需要在不同的硬件平台和任务上进行更多实验，以评估其通用性和鲁棒性。
2 在大规模搜索空间中进行低精度训练可能会导致计算成本较高。如何在保持优化与部署一致性的同时降低计算成本，是一个值得研究的问题。这需要开发更高效的优化算法和策略。
3 本文的方法主要针对FP16数值约束进行优化，可能不适用于其他低精度格式。探索其他低精度格式下的数值约束对模型性能的影响，是未来研究的重要方向。
4 在实际应用中，边缘设备的硬件特性可能会影响模型的性能。如何在NAS过程中更好地模拟和考虑这些硬件特性，以提高模型的部署性能，是一个值得探索的问题。
5 虽然本文的方法在船舶分割任务中表现良好，但在其他任务上的适用性和性能仍需进一步验证。这需要在不同的应用场景中进行更多实验，以评估其通用性和有效性。

应用场景

近期应用

空间任务中的船舶监测

通过部署一致的低精度训练，提高船舶分割模型在边缘设备上的性能，适用于需要快速决策的空间任务。

低功耗边缘设备上的图像处理

在低功耗、低内存的边缘设备上部署高效的图像处理模型，提高处理速度和精度，适用于各种实时应用。

智能交通系统中的目标检测

在智能交通系统中应用部署一致的低精度训练，提高目标检测模型在边缘设备上的性能，实现更高效的交通管理。

远期愿景

自主空间探测

通过在空间探测任务中应用高效的边缘AI，实现更自主的决策和操作，减少对地面站的依赖。

智能城市中的边缘计算

在智能城市中应用高效的边缘AI，实现更智能的城市管理和服务，如实时监控和应急响应。

原文摘要

Designing deep networks that meet strict latency and accuracy constraints on edge accelerators increasingly relies on hardware-aware optimization, including neural architecture search (NAS) guided by device-level metrics. Yet most hardware-aware NAS pipelines still optimize architectures under full-precision assumptions and apply low-precision adaptation only after the search, leading to a mismatch between optimization-time behavior and deployment-time execution on low-precision hardware that can substantially degrade accuracy. We address this limitation by integrating deployment-aligned low-precision training directly into hardware-aware NAS. Candidate architectures are exposed to FP16 numerical constraints during fine-tuning and evaluation, enabling joint optimization of architectural efficiency and numerical robustness without modifying the search space or evolutionary strategy. We evaluate the proposed framework on vessel segmentation for spaceborne maritime monitoring, targeting the Intel Movidius Myriad X Visual Processing Unit (VPU). While post-training precision conversion reduces on-device performance from 0.85 to 0.78 mIoU, deployment-aligned low-precision training achieves 0.826 mIoU on-device for the same architecture (95,791 parameters), recovering approximately two-thirds of deployment-induced accuracy gap without increasing model complexity. These results demonstrate that incorporating deployment-consistent numerical constraints into hardware-aware NAS substantially improves robustness and alignment between optimization and deployment for resource-constrained edge Artificial Intelligence (AI).

cs.CV cs.AI cs.ET cs.LG cs.NE

参考文献 (20)

Object Detection Using Deep Learning, CNNs and Vision Transformers: A Review

Ayoub Benali Amjoud, M. AMROUCH

2023 247 引用

Overview of ESA’s Earth Observation upcoming small satellites missions

M. Pastena, M. Tossaint, A. Regan 等

2020 10 引用

Optimizing deep learning models for on-orbit deployment through neural architecture search

Roberto del Prete, P. Thind, Andrea Mazzeo 等

2025 5 引用

Post training 4-bit quantization of convolutional networks for rapid-deployment

Ron Banner, Yury Nahshan, Daniel Soudry

2018 722 引用

NAS-Bench-1Shot1: Benchmarking and Dissecting One-shot Neural Architecture Search

Arber Zela, Julien N. Siems, F. Hutter

2020 156 引用查看解读 →

ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware

Han Cai, Ligeng Zhu, Song Han

2018 2038 引用查看解读 →

Pol-NAS: A Neural Architecture Search Method With Feature Selection for PolSAR Image Classification

Guangyuan Liu, Yangyang Li, Yanqiao Chen 等

2022 13 引用

Development and implementation of the Φsat-2 mission

N. Melega, N. Longépé, A. Paskeviciute 等

2025 3 引用

DARTS: Differentiable Architecture Search

Hanxiao Liu, K. Simonyan, Yiming Yang

2018 4882 引用查看解读 →

Designing a Classifier for Active Fire Detection From Multispectral Satellite Imagery Using Neural Architecture Search

Amber Cassimon, Philippe Reiter, Siegfried Mercelis 等

2024 5 引用查看解读 →

Neural gradients are near-lognormal: improved quantized and sparse training

Brian Chmiel, Liad Ben-Uri, Moran Shkolnik 等

2020 64 引用

AutoML-Based Neural Architecture Search for Object Recognition in Satellite Imagery

Povilas Gudžius, O. Kurasova, Vytenis Darulis 等

2022 14 引用

NASEO: Neural Architecture Search for Earth Observation Onboard Processing

P. Thind, Roberto del Prete, Matthew Whitley 等

2025 1 引用

A White Paper on Neural Network Quantization

Markus Nagel, Marios Fournarakis, Rana Ali Amjad 等

2021 823 引用查看解读 →

DPP-Net: Device-aware Progressive Search for Pareto-optimal Neural Architectures

Jin-Dong Dong, An-Chieh Cheng, Da-Cheng Juan 等

2018 196 引用查看解读 →

A comprehensive survey on model compression and acceleration

T. Choudhary, V. Mishra, Anurag Goswami 等

2020 506 引用

On-board Volcanic Eruption Detection through CNNs and Satellite Multispectral Imagery

M. P. D. Rosso, A. Sebastianelli, D. Spiller 等

2021 48 引用查看解读 →

Model Compression and Acceleration for Deep Neural Networks: The Principles, Progress, and Challenges

Yu Cheng, Duo Wang, Pan Zhou 等

2018 664 引用

Towards onboard thermal hotspots segmentation with raw multispectral satellite imagery

Cristopher Castro Traba, David Rijlaarsdam, Jian Guo 等

2026 2 引用

Neural architecture search: A contemporary literature review for computer vision applications

Matt Poyser, T. Breckon

2023 61 引用

Deployment-Aligned Low-Precision Neural Architecture Search for Spaceborne Edge AI

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

神经架构搜索 (Neural Architecture Search)

硬件感知优化 (Hardware-Aware Optimization)

低精度训练 (Low-Precision Training)

FP16 (Half-Precision Floating Point)

进化算法 (Evolutionary Algorithm)

设备内循环评估 (Device-in-the-Loop Evaluation)

后训练精度转换 (Post-Training Quantization)

船舶分割 (Vessel Segmentation)

地球观测 (Earth Observation)

Intel Movidius Myriad X

开放问题 这项研究留下的未解疑问

应用场景

近期应用

空间任务中的船舶监测

低功耗边缘设备上的图像处理

智能交通系统中的目标检测

远期愿景

自主空间探测

智能城市中的边缘计算

原文摘要

参考文献 (20)

相关论文

DeepTaxon: An Interpretable Retrieval-Augmented Multimodal Framework for Unified Species Identification and Discovery

Learn&Drop: Fast Learning of CNNs based on Layer Dropping

SS3D: End2End Self-Supervised 3D from Web Videos

PASR: Pose-Aware 3D Shape Retrieval from Occluded Single Views

A Non-Invasive Alternative to RFID: Self-Sufficient 3D Identification of Group-Housed Livestock

EV-CLIP: Efficient Visual Prompt Adaptation for CLIP in Few-shot Action Recognition under Visual Challenges

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问