OmniNFT: Modality-wise Omni Diffusion Reinforcement for Joint Audio-Video Generation

TL;DR

OmniNFT通过模态感知的在线扩散强化学习框架提升音视频生成的质量和同步性。

cs.CV 🔴 高级 2026-05-13 194 次浏览

Guohui Zhang XiaoXiao Ma Jie Huang Hang Xu Hu Yu Siming Fu Yuming Li Zeyue Xue Lin Song Haoyang Huang Nan Duan Feng Zhao

AI 阅读器 Arxiv 原文下载 PDF

音视频生成强化学习模态感知同步性扩散模型

核心发现

方法论

OmniNFT提出了一种模态感知的在线扩散强化学习框架，包含三个核心创新：模态优势路由、层级梯度手术和区域损失重加权。模态优势路由将独立的奖励优势分配到各自的模态生成分支；层级梯度手术选择性地在浅层音频层上分离视频分支梯度；区域损失重加权则调整策略优化以关注音视频同步和细粒度对齐的关键区域。

关键结果

在JavisBench和VBench上进行的实验表明，OmniNFT在音频和视频感知质量、跨模态对齐和音视频同步方面实现了全面提升。具体而言，视觉质量从2.038提升至3.326（+63.2%），音频质量从5.197提升至5.715（+10.0%）。
与LTX-2和GDPO相比，OmniNFT在跨模态一致性和时间同步方面表现最佳。同步性指标DeSync从0.569降至0.269（-52.7%），显著优于GDPO（0.412）。
在消融实验中，模态优势路由、层级梯度手术和区域损失重加权分别对跨模态一致性、音频保真度和同步性产生显著影响。

研究意义

OmniNFT在音视频生成领域具有重要意义，它解决了多模态生成中的长期痛点，如模态一致性和同步性问题。通过将强化学习扩展到多目标和多模态生成，OmniNFT不仅提升了生成质量，还为学术界和工业界提供了新的解决方案。

技术贡献

OmniNFT在技术上有重要贡献，它通过模态感知的策略优化解决了现有方法中的优势不一致和梯度失衡问题。与现有的SOTA方法相比，OmniNFT提供了新的理论保证和工程可能性，特别是在多模态生成的复杂目标优化方面。

新颖性

OmniNFT是首个将强化学习扩展到多目标和多模态音视频生成的框架。与最相关的工作相比，OmniNFT通过模态优势路由和梯度手术实现了更精细的奖励分配和梯度管理。

局限性

OmniNFT在处理非常复杂的音视频场景时可能会遇到性能瓶颈，因为模型需要处理大量的模态交互。
由于计算复杂性，OmniNFT在实时应用中的表现可能受到限制，需要进一步优化。
在某些极端情况下，模态优势路由可能无法完全捕捉到所有跨模态交互的细节。

未来方向

未来的研究方向包括优化OmniNFT的计算效率以支持实时应用，探索更多的模态交互机制，以及在更复杂的音视频场景中验证其性能。

AI 总览摘要

近年来，音视频联合生成技术取得了显著进展，但在实际应用中仍然面临着模态保真度、跨模态对齐和细粒度同步的挑战。虽然强化学习提供了一个有前景的范式，但其在多目标和多模态音视频生成中的应用仍未被充分探索。OmniNFT通过模态感知的在线扩散强化学习框架解决了这些问题。该框架的三个核心创新包括模态优势路由、层级梯度手术和区域损失重加权。实验结果表明，OmniNFT在音频和视频感知质量、跨模态对齐和音视频同步方面实现了全面提升。OmniNFT不仅在学术界具有重要意义，还为工业界提供了新的解决方案。尽管如此，OmniNFT在处理复杂场景时仍面临一些限制，未来的研究将集中在优化计算效率和探索更多的模态交互机制上。

深度分析

研究背景

音视频联合生成技术近年来取得了显著进展，尤其是在模态保真度和跨模态一致性方面。然而，现有的生成模型仍然难以同时满足这些多方面的要求。强化学习作为一种强大的后训练范式，能够优化复杂且高度主观的目标，但其在多目标和多模态生成中的应用仍未被充分探索。

核心问题

音视频联合生成面临的核心问题是如何实现高模态保真度、跨模态语义一致性和细粒度的音视频同步。这些问题不仅重要且难以解决，因为它们涉及到复杂的模态交互和多目标优化。

核心创新

OmniNFT通过三个核心创新解决了音视频生成中的关键问题。首先，模态优势路由将独立的奖励优势分配到各自的模态生成分支，解决了优势不一致的问题。其次，层级梯度手术选择性地在浅层音频层上分离视频分支梯度，解决了梯度失衡问题。最后，区域损失重加权调整策略优化以关注音视频同步和细粒度对齐的关键区域。

方法详解

�� 模态优势路由：将独立的奖励优势分配到各自的模态生成分支。
�� 层级梯度手术：选择性地在浅层音频层上分离视频分支梯度。
�� 区域损失重加权：调整策略优化以关注音视频同步和细粒度对齐的关键区域。

实验设计

实验设计包括在JavisBench和VBench上进行测试，使用LTX-2作为基线。评估指标包括视觉质量、音频质量、跨模态一致性和音视频同步性。消融实验用于分析每个组件的贡献。

结果分析

实验结果表明，OmniNFT在音频和视频感知质量、跨模态对齐和音视频同步方面实现了全面提升。视觉质量从2.038提升至3.326（+63.2%），音频质量从5.197提升至5.715（+10.0%）。同步性指标DeSync从0.569降至0.269（-52.7%）。

应用场景

OmniNFT在实际应用中具有广泛的潜力，包括电影制作、虚拟现实和增强现实等领域。其高模态保真度和同步性使其适用于需要高质量音视频生成的场景。

局限与展望

尽管OmniNFT在音视频生成中表现出色，但其在处理非常复杂的场景时可能会遇到性能瓶颈。此外，由于计算复杂性，实时应用中的表现可能受到限制。未来的研究将集中在优化计算效率和探索更多的模态交互机制上。

通俗解读非专业人士也能看懂

想象一下你在厨房里做饭。OmniNFT就像一个聪明的厨师，能够同时烹饪多道菜肴，并确保每道菜都完美地配合在一起。这个厨师使用了一种特殊的技术，能够根据每道菜的需要调整火候和调料。比如说，煮汤的时候，他会确保汤的味道和颜色都恰到好处，而烤肉的时候，他会确保肉的外皮酥脆而内里多汁。OmniNFT就像这个厨师一样，通过模态优势路由、层级梯度手术和区域损失重加权，确保音视频生成的每个部分都达到最佳状态，并且完美地结合在一起。

简单解释像给14岁少年讲一样

嘿，想象一下你在玩一个超级酷的游戏，这个游戏可以让你自己制作电影！OmniNFT就像一个超级智能的助手，它能帮你同时制作电影里的画面和声音，而且它确保两者完美同步。比如说，当角色在说话时，它能确保嘴巴的动作和声音完全匹配。它就像一个魔法师，能让所有的元素完美结合，让你的电影看起来超级专业！想象一下你能制作出自己的大片，是不是很酷？

术语表

模态感知 (Modality-aware)

指系统能够识别和处理不同模态的信息，如音频和视频。

在OmniNFT中用于优化音视频生成的策略。

扩散模型 (Diffusion Model)

一种生成模型，通过逐步去噪来生成数据。

OmniNFT使用扩散模型进行音视频生成。

强化学习 (Reinforcement Learning)

一种机器学习方法，通过奖励和惩罚来引导模型学习。

用于优化OmniNFT的生成质量。

梯度手术 (Gradient Surgery)

一种技术，通过选择性地分离梯度来优化模型训练。

用于解决OmniNFT中的梯度失衡问题。

损失重加权 (Loss Reweighting)

一种策略，通过调整损失函数的权重来优化模型训练。

用于关注音视频同步的关键区域。

模态优势路由 (Modality-wise Advantage Routing)

一种技术，通过将奖励优势分配到各自的模态生成分支来优化模型。

用于解决OmniNFT中的优势不一致问题。

音视频同步 (Audio-Video Synchronization)

指音频和视频在时间上的一致性。

OmniNFT的一个关键优化目标。

跨模态对齐 (Cross-modal Alignment)

指不同模态之间的语义一致性。

OmniNFT的一个重要优化目标。

消融实验 (Ablation Study)

一种实验方法，通过去除某些组件来分析其对整体系统的影响。

用于分析OmniNFT的各个组件的贡献。

JavisBench

一个用于评估音视频生成质量的基准测试。

OmniNFT在该基准上进行测试。

开放问题这项研究留下的未解疑问

1 如何进一步优化OmniNFT的计算效率以支持实时应用？当前方法在处理复杂场景时可能会遇到性能瓶颈，需要探索新的优化策略。
2 在更复杂的音视频场景中，OmniNFT的性能如何？需要进行更多的实验来验证其在不同场景中的表现。
3 如何解决OmniNFT在极端情况下的模态优势路由问题？当前方法可能无法完全捕捉所有跨模态交互的细节。
4 OmniNFT在处理多模态生成中的长期痛点方面有哪些潜在的改进？需要探索新的模态交互机制。
5 如何进一步提升OmniNFT的跨模态一致性？当前方法在某些情况下可能无法完全实现语义一致性。

应用场景

近期应用

电影制作

OmniNFT可以用于电影制作中的音视频生成，确保高质量的模态保真度和同步性。

虚拟现实

在虚拟现实中，OmniNFT可以用于生成逼真的音视频内容，提升用户体验。

增强现实

OmniNFT可以用于增强现实应用中的音视频生成，确保内容的实时性和一致性。

远期愿景

智能媒体生成

OmniNFT可以用于开发智能媒体生成系统，实现自动化的高质量音视频内容创作。

多模态交互系统

OmniNFT可以用于开发多模态交互系统，提升人机交互的自然性和流畅性。

原文摘要

Recent advances in joint audio-video generation have been remarkable, yet real-world applications demand strong per-modality fidelity, cross-modal alignment, and fine-grained synchronization. Reinforcement Learning (RL) offers a promising paradigm, but its extension to multi-objective and multi-modal joint audio-video generation remains unexplored. Notably, our in-depth analysis first reveals that the primary obstacles to applying RL in this stem from: (i) multi-objective advantages inconsistency, where the advantages of multimodal outputs are not always consistent within a group; (ii) multi-modal gradients imbalance, where video-branch gradients leak into shallow audio layers responsible for intra-modal generation; (iii) uniform credit assignment, where fine-grained cross-modal alignment regions fail to get efficient exploration. These shortcomings suggest that vanilla RL fine-tuning strategy with a single global advantage often leads to suboptimal results. To address these challenges, we propose OmniNFT, a novel modality-aware online diffusion RL framework with three key innovations: (1) Modality-wise advantage routing, which routes independent per-reward advantages to their respective modality generation branches. (2) Layer-wise gradient surgery, which selectively detaches video-branch gradients on shallow audio layers while retaining those for cross-modal interaction layers. (3) Region-wise loss reweighting, which modulates policy optimization toward critical regions related to audio-video synchronization and fine-grained alignment. Extensive experiments on JavisBench and VBench with the LTX-2 backbone demonstrate that OmniNFT achieves comprehensive improvements in audio and video perceptual quality, cross-modal alignment, and audio-video synchronization.

cs.CV cs.AI

参考文献 (20)

ACE-Step: A Step Towards Music Generation Foundation Model

Junmin Gong, S. Zhao, Sen Wang 等

2025 51 引用 ⭐ 高影响力查看解读 →

DanceGRPO: Unleashing GRPO on Visual Generation

Zeyue Xue, Jie Wu, Yu Gao 等

2025 253 引用 ⭐ 高影响力查看解读 →

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Adam Suma, Sam Dauncey

2025 2998 引用 ⭐ 高影响力

Wan: Open and Advanced Large-Scale Video Generative Models

Ang Wang, Baole Ai, Bin Wen 等

2025 1582 引用 ⭐ 高影响力查看解读 →

LTX-2: Efficient Joint Audio-Visual Foundation Model

Yoav HaCohen, Benny Brazowski, Nisan Chiprut 等

2026 66 引用 ⭐ 高影响力查看解读 →

CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers

Wenyi Hong, Ming Ding, Wendi Zheng 等

2022 1050 引用查看解读 →

ImageBind One Embedding Space to Bind Them All

Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu 等

2023 1508 引用查看解读 →

Align Your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

A. Blattmann, Robin Rombach, Huan Ling 等

2023 1628 引用查看解读 →

DiffusionNFT: Online Diffusion Reinforcement with Forward Process

Kaiwen Zheng, Huayu Chen, Haotian Ye 等

2025 90 引用查看解读 →

Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model

Siyan Chen, Yanfei Chen, Ying Chen 等

2025 37 引用查看解读 →

Flow Matching for Generative Modeling

Y. Lipman, Ricky T. Q. Chen, Heli Ben-Hamu 等

2022 4387 引用查看解读 →

The Power of Sound (TPoS): Audio Reactive Video Generation with Stable Diffusion

Yujin Jeong, Won-Wha Ryoo, Seunghyun Lee 等

2023 42 引用查看解读 →

TempFlow-GRPO: When Timing Matters for GRPO in Flow Models

Xiaoxuan He, Siming Fu, Yuke Zhao 等

2025 61 引用查看解读 →

Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound

Andros Tjandra, Yi-Chiao Wu, Baishan Guo 等

2025 135 引用查看解读 →

Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners

Yazhou Xing, Yin-Yin He, Zeyue Tian 等

2024 125 引用查看解读 →

Veo: a text-to-video generation system

31 引用

Large-Scale Contrastive Language-Audio Pretraining with Feature Fusion and Keyword-to-Caption Augmentation

Yusong Wu, K. Chen, Tianyu Zhang 等

2022 1005 引用查看解读 →

HPSv3: Towards Wide-Spectrum Human Preference Score

Yuhang Ma, Xiaoshi Wu, Keqiang Sun 等

2025 127 引用查看解读 →

Reinforcement Learning Meets Masked Generative Models: Mask-GRPO for Text-to-Image Generation

Yifu Luo, Xinhao Hu, Keyu Fan 等

2025 7 引用查看解读 →

LTX-Video: Realtime Video Latent Diffusion

Yoav HaCohen, Nisan Chiprut, Benny Brazowski 等

2024 386 引用查看解读 →

OmniNFT: Modality-wise Omni Diffusion Reinforcement for Joint Audio-Video Generation

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

模态感知 (Modality-aware)

扩散模型 (Diffusion Model)

强化学习 (Reinforcement Learning)

梯度手术 (Gradient Surgery)

损失重加权 (Loss Reweighting)

模态优势路由 (Modality-wise Advantage Routing)

音视频同步 (Audio-Video Synchronization)

跨模态对齐 (Cross-modal Alignment)

消融实验 (Ablation Study)

JavisBench

开放问题 这项研究留下的未解疑问

应用场景

近期应用

电影制作

虚拟现实

增强现实

远期愿景

智能媒体生成

多模态交互系统

原文摘要

参考文献 (20)

相关论文

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

SSD: Spatially Speculative Decoding Accelerates Autoregressive Image Generation

CalTennis: Large Multi-View Tennis Video Dataset and Benchmark of Monocular-to-3D Pose Estimation

Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

EventDrive: Event Cameras for Vision-Language Driving Intelligence

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问