AnyMod-LLVE: Low-Light Video Enhancement with Modality-Agnostic Inference

TL;DR

提出AMNet实现低光视频增强的模态无关推理，支持缺失模态，性能优于现有方法。

cs.CV 🔴 高级 2026-06-10 87 次浏览

Hangfeng Liang Yutao Hu Yanhan Hu Xiaohan Wu Wenqi Shao Ying Fu

低光视频增强多模态学习模态无关推理深度学习生成模型

核心发现

方法论

本文提出的AMNet框架通过引入空间-频谱双门控转换器（S2DG Translator），实现从低光RGB图像中隐式生成辅助模态（如事件流和红外图像）表示。训练阶段利用大规模合成多模态视频数据进行预训练，学习跨模态对应关系。模型由RGB编码器、S2DG Translator、时序建模模块和解码器组成，支持在辅助模态缺失时依然进行高质量增强。S2DG Translator结合光照感知的细节选择器（IADS）和频带选择器（FBS），提取鲁棒的高频细节信息，并在频域中调节重要频段，增强细节表达能力。训练目标包括重建损失、缺失模态模拟损失和特征蒸馏损失，确保模型在不同模态组合下的鲁棒性。

关键结果

在仅RGB输入的DID和SDSD数据集上，AMNet分别实现了PSNR提升至31.57和29.03，优于现有最优方法，显示出极强的单模态性能。引入辅助模态时，模型性能进一步提升，PSNR最高达33.2，SSIM达0.95，显著优于对比方法。在缺失模态场景下，AMNet的性能下降极小，仍保持较高的增强质量，验证了其模态无关推理能力。大量实验证明，预训练策略有效提升模型对极端低光条件下的细节恢复能力，模型在多个实际场景中表现出优异的鲁棒性。
通过消融实验验证，S2DG Translator中的IADS和FBS模块显著提升了细节提取和跨模态对应学习效果。多模态预训练使模型在缺失模态时仍能生成高质量的隐式辅助表示，增强了模型的适应性。与纯RGB方法相比，AMNet在噪声抑制、细节恢复和结构保持方面均优越，特别是在极端低光和模态缺失情况下表现出强大鲁棒性。

研究意义

该研究突破了低光视频增强中模态依赖的限制，提出模态无关推理框架，极大提升了模型在实际应用中的适应性。通过引入隐式辅助模态生成机制，解决了多模态数据采集成本高、同步困难的问题，为自动驾驶、监控等场景提供了更为灵活的解决方案。模型在极端环境下依然能保持优异性能，有助于推动低光成像技术的普及与应用。此方法不仅丰富了多模态学习的理论体系，也为未来模态缺失情况下的视觉任务提供了新思路。

技术贡献

本文提出的AMNet架构创新性地引入空间-频谱双门控转换器（S2DG Translator），实现从低光RGB图像中隐式生成辅助模态表示，突破了传统多模态依赖的限制。结合光照感知的细节选择器和频带调节机制，有效提取鲁棒细节信息，增强跨模态对应学习。预训练策略利用合成多模态视频数据，显著提升模型在模态缺失时的表现。整体设计实现了在任意模态组合下的统一推理，推动了低光视频增强技术的实用化和鲁棒性。

新颖性

本研究首次提出模态无关推理框架，允许在辅助模态缺失时依然实现高质量增强，区别于以往依赖完整模态的多模态方法。引入的S2DG Translator结合光照感知与频域调节，创新性地解决了极端低光条件下细节提取困难的问题。预训练合成多模态数据的方法也为相关任务提供了新思路，显著提升了模型的泛化能力和鲁棒性。

局限性

模型在极端噪声环境下仍可能受到干扰，生成的隐式模态表示在某些复杂场景中可能不够准确，影响最终增强效果。
预训练过程中合成模态依赖生成模型，可能引入偏差，实际应用中真实模态的差异仍会影响性能。
在极端低光条件下，模型的细节恢复能力有限，尤其是对极端模糊或遮挡场景的处理仍需改进。

未来方向

未来将探索更高效的隐式模态生成机制，减少预训练依赖，提升模型在真实复杂环境中的适应性。还计划结合自监督学习策略，增强模型对极端噪声和遮挡的鲁棒性。此外，将扩展模型支持更多类型的辅助模态，如深度信息和声学信号，进一步丰富多模态融合的能力。

AI 总览摘要

低光环境下的视频成像一直是计算机视觉领域的难题，尤其在自动驾驶、安防监控等关键应用中，夜间或弱光条件下的图像质量直接影响系统的安全性和可靠性。传统的单模态增强方法依赖于RGB图像本身，但在极端低光条件下，图像信息严重受损，细节丧失，结构模糊，难以恢复。多模态方法引入红外、事件流等辅助模态，显著改善了细节恢复能力，但这些方法普遍假设在推理阶段辅助模态始终可用，实际应用中却面临模态缺失的挑战。硬件成本、同步难题使得多模态数据采集复杂且不稳定，限制了其实际部署。为解决这一瓶颈，本文提出了AMNet框架，支持在推理时模态无关的高质量视频增强。核心创新在于引入空间-频谱双门控转换器（S2DG Translator），能够从低光RGB图像中隐式生成辅助模态的表示，无论辅助模态是否存在，都能保证增强效果的稳定。训练阶段利用合成多模态视频数据进行大规模预训练，学习跨模态对应关系，增强模型的泛化能力。实验证明，AMNet在仅RGB输入的情况下，已超越现有最优方法，PSNR达31.57，SSIM达0.95；在多模态条件下，性能进一步提升，最高PSNR达33.2，表现出极强的鲁棒性和适应性。该方法不仅在学术上丰富了多模态学习的理论体系，也为实际应用提供了更为灵活和高效的解决方案，特别是在模态缺失和极端环境下的低光视频增强任务中，展现出巨大潜力。未来，作者计划结合自监督和生成模型，进一步提升模型的细节恢复能力和实时性，推动低光视觉技术的广泛应用。

深度解读

原文摘要

Low-light video enhancement (LLVE) remains a challenging task due to severe information degradation under low-illumination conditions. Recent multimodal approaches have significantly improved enhancement performance by incorporating auxiliary modalities, such as event streams and infrared images. However, these methods typically assume the availability of these modalities at inference, which is often not feasible in real-world scenarios. To solve this problem, in this work, we propose AMNet, a unified multimodal framework for LLVE, to support flexible modality-agnostic inference, where auxiliary modalities may be unavailable. To address the issue of modality absence, we introduce a Spatial-Spectral Dual-Gated Translator that learns the correspondence between auxiliary modalities and RGB inputs, producing implicit auxiliary representations to support the robust enhancement. Additionally, to fully facilitate the learning of cross-modal correspondence, we conduct large-scale multimodal pretraining based on the RGB-only dataset with synthetic auxiliary modalities. Extensive experiments demonstrate that AMNet could handle arbitrary inference-time modality combinations and exhibits superior performance for LLVE under modality absence conditions. Code and models are available on the project page.

cs.CV

参考文献 (20)

Low-Light Video Enhancement with Synthetic Event Guidance

Lin Liu, Junfeng An, Jianzhuang Liu 等

2022 55 引用 ⭐ 高影响力查看解读 →

EvLight++: Low-Light Video Enhancement With an Event Camera: A Large-Scale Real-World Dataset, Novel Method, and More

Kanghao Chen, Guoqiang Liang, Yunfan Lu 等

2024 13 引用 ⭐ 高影响力查看解读 →

Dancing in the Dark: A Benchmark towards General Low-light Video Enhancement

Huiyuan Fu, Wenkai Zheng, Xicong Wang 等

2023 42 引用 ⭐ 高影响力

Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition

Xiaogang Xu, Kun Zhou, Tao Hu 等

2024 5 引用 ⭐ 高影响力查看解读 →

Event-Guided Low-Light Video Semantic Segmentation

Zhen Yao, Mooi Choo Choo Chuah

2024 18 引用查看解读 →

YouTube-VOS: Sequence-to-Sequence Video Object Segmentation

N. Xu, L. Yang, Yuchen Fan 等

2018 542 引用查看解读 →

MetaBEV: Solving Sensor Failures for 3D Detection and Map Segmentation

Chongjian Ge, Junsong Chen, Enze Xie 等

2023 70 引用

Cross-Modal Alignment and Translation for Missing Modality Action Recognition

Yeonju Park, Sangmin Woo, Sumin Lee 等

2022 11 引用

A Physics-Based Noise Formation Model for Extreme Low-Light Raw Denoising

Kaixuan Wei, Ying Fu, Jiaolong Yang 等

2020 255 引用查看解读 →

Event Enhanced High-Quality Image Recovery

Bishan Wang, Jingwei He, Lei Yu 等

2020 145 引用查看解读 →

MobileIE: An Extremely Lightweight and Effective ConvNet for Real-Time Image Enhancement on Mobile Devices

Hailong Yan, Ao Li, Xiangtao Zhang 等

2025 16 引用查看解读 →

Frequency Dynamic Convolution for Dense Image Prediction

Linwei Chen, Lin Gu, Liang Li 等

2025 54 引用查看解读 →

AMM-Diff: Adaptive Multi-Modality Diffusion Network for Missing Modality Imputation

Aghiles Kebaili, J. Lapuyade-Lahorgue, Pierre Vera 等

2025 10 引用查看解读 →

RT-X Net: RGB-Thermal cross attention network for Low-Light Image Enhancement

Raman Jha, Adithya Lenka, Mani Ramanagopal 等

2025 7 引用查看解读 →

Unbiased Missing-Modality Multimodal Learning

Ruiting Dai, Chenxi Li, Yandong Yan 等

2025 20 引用

Low-Light Image Enhancement Using Event-Based Illumination Estimation

Lei Sun, Yuhan Bao, Jiajun Zhai 等

2025 12 引用查看解读 →

A Joint Network for Low-Light Image Enhancement Based on Retinex

Yonglong Jiang, Jiahe Zhu, Liangliang Li 等

2024 17 引用

Events-To-Video: Bringing Modern Computer Vision to Event Cameras

Henri Rebecq, René Ranftl, V. Koltun 等

2019 469 引用查看解读 →

Event-Based Low-Illumination Image Enhancement

Yu Jiang, Yuehang Wang, Siqi Li 等

2024 62 引用

Towards Robust Event-guided Low-Light Image Enhancement: A Large-Scale Real-World Event-Image Dataset and Novel Approach

Guoqiang Liang, Kanghao Chen, Hangyu Li 等

2024 66 引用查看解读 →

AnyMod-LLVE: Low-Light Video Enhancement with Modality-Agnostic Inference

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度解读

原文摘要

参考文献 (20)

相关论文

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

SSD: Spatially Speculative Decoding Accelerates Autoregressive Image Generation

CalTennis: Large Multi-View Tennis Video Dataset and Benchmark of Monocular-to-3D Pose Estimation

Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

EventDrive: Event Cameras for Vision-Language Driving Intelligence