MOFA-VTON: More Fashion Possibilities with Fine-Grained Adaptations in Virtual Try-On

TL;DR

提出MOFA-VTON，通过用户草图实现细粒度虚拟试衣，超越传统布局限制。

cs.CV 🔴 高级 2026-06-10 56 次浏览

Xiaoyu Han Chenyang Wang Jing Wang Shunyuan Zheng Quanling Meng Shengping Zhang

虚拟试衣深度学习生成模型交互控制布局调整

核心发现

方法论

MOFA-VTON采用基于扩散模型的生成架构，结合双区域掩码和布局调整机制，实现用户通过草图控制服装布局。核心组件包括：• 设计基于DensePose的双区域掩码，将用户绘制的曲线转化为上下身区域，提供细粒度布局指导；• 引入交叉注意力机制的布局调整块，分别学习上、下身区域的空间对应关系，优化服装的空间布局；• 利用CLIP、Cloth-Net和区域编码器提取多层服装特征，并注入到扩散模型中，确保服装细节的丰富性和一致性；• 采用改进的UNet架构（Adapt-Net）作为生成基础，通过多级特征融合实现高质量试衣效果。整体流程包括掩码构建、特征提取、布局调整和条件引导的逐步生成，充分利用用户草图实现多样化、个性化的虚拟试衣。

关键结果

在VITON-HD和DressCode数据集上，MOFA-VTON在FID、LPIPS、SSIM等指标上均优于SOTA方法。例如，在VITON-HD数据集上，MOFA-VTON的FID为5.97，明显优于IDM-VTON的6.45，显示出更高的生成质量和细节保留能力。用户主观评估中，超过78%的试衣结果被评为自然逼真，且具有丰富的布局变化。通过引入草图控制，模型实现了多样化的穿着效果，包括不同的衣长、折叠和腰线变化，显著超越传统的固定布局限制。
在多场景试验中，模型展现出对复杂服装轮廓的适应能力，成功处理带有褶皱、装饰物的服装，表现出优异的鲁棒性。 Ablation研究显示，去除双区域掩码或布局调整块会导致生成质量下降约10%，验证了这些模块的关键作用。
在用户偏好调研中，超过85%的用户更青睐MOFA-VTON的多样化效果，认为其更贴合个人风格，展示出优异的交互控制能力。

研究意义

本研究突破了虚拟试衣中布局固定的限制，首次实现用户通过简单草图调节服装的空间布局，极大丰富了虚拟试衣的个性化和多样性。该方法结合深度生成模型与交互控制，为电商、虚拟试衣镜、虚拟形象定制等应用提供了强大的技术支撑。其创新的布局调整机制和细粒度控制能力，有望推动虚拟试衣技术向更高的交互性和真实感发展，满足个性化、多样化的市场需求。

技术贡献

本文提出基于扩散模型的MOFA-VTON架构，结合双区域掩码和跨注意力布局调整机制，显著提升了虚拟试衣的控制粒度和多样性。具体贡献包括：• 设计了基于DensePose的双区域掩码，支持用户草图引导的细粒度布局；• 引入布局调整块，利用交叉注意力机制独立学习上下身区域的空间对应关系，实现服装位置的动态调节；• 融合多层次服装特征（CLIP、Cloth-Net、区域编码器），确保生成结果的细节丰富和风格一致；• 改进的Adapt-Net架构，结合条件引导和特征融合，提升生成质量。整体框架实现了在保持高质量的基础上，赋予用户更强的控制能力，推动虚拟试衣技术的创新发展。

新颖性

本研究的创新点在于引入基于用户草图的双区域掩码，突破了传统服装遮罩的刚性限制，实现了细粒度布局控制。同时，布局调整块利用跨注意力机制独立学习上下区域的空间关系，赋予模型更强的灵活性。这在现有方法中尚属首次，极大丰富了虚拟试衣的交互方式和多样性。相比以往仅能进行简单覆盖或点控制的技术，MOFA-VTON实现了像手绘草图般的直观操控，开启了虚拟试衣的个性化新篇章。

局限性

模型在极端复杂服装（如大量装饰、褶皱）或极端姿态下的表现仍有限，可能出现细节失真或布局偏差，原因在于特征提取和布局调整的局限性。
高质量生成依赖大量训练数据和计算资源，模型训练成本较高，实际应用中存在一定的硬件门槛。
用户草图的准确性和细节程度对最终效果影响较大，草图不规范可能导致布局偏差或生成不自然。

未来方向

未来将探索更智能的草图理解机制，结合多模态输入提升布局控制的鲁棒性。同时，计划引入自适应学习策略，增强模型对不同服装风格和人体姿态的适应能力。此外，将结合虚拟现实技术，推动虚拟试衣的沉浸式体验，满足个性化、交互式的虚拟服装设计需求。

AI 总览摘要

虚拟试衣技术作为电商和虚拟形象领域的重要突破，旨在为用户提供逼真的穿衣体验。然而，现有方法多局限于简单的服装覆盖，缺乏对个性化穿搭风格的控制，导致试衣效果单一、缺乏变化。本文提出的MOFA-VTON，通过引入用户草图控制，实现了服装布局的细粒度调节，极大丰富了虚拟试衣的多样性。

该方法基于扩散模型架构，结合双区域掩码和跨注意力布局调整机制，支持用户用简单的曲线草图定义上下身的服装轮廓。双区域掩码由DensePose映射和草图裁剪构建，提供明确的空间指导，而布局调整块则通过学习上下区域的空间对应关系，实现服装位置的动态调节。特征提取方面，模型融合了CLIP、Cloth-Net和区域编码器的多层次服装特征，确保生成的服装细节丰富且风格一致。

在VITON-HD和DressCode两个公开数据集上的大量实验表明，MOFA-VTON在生成质量、细节保留和多样性方面均优于现有最先进方法。具体指标显示，其FID值最低，LPIPS和SSIM指标表现优异，用户主观评价也显示出更高的自然逼真度和多样化效果。 Ablation研究验证了双区域掩码和布局调整机制的关键作用，进一步证明了模型设计的有效性。

该技术的最大亮点在于实现了用户直观操控虚拟试衣的能力，突破了传统布局固定的限制，为个性化虚拟试衣提供了新的解决方案。未来，作者计划结合多模态输入和虚拟现实技术，推动虚拟试衣的沉浸式体验和智能化发展，满足未来个性化、多样化的市场需求。

深度解读

原文摘要

Virtual try-on aims to fit an in-shop clothing image onto a specific human body. An optimal virtual try-on method should provide diverse and flexible dressing options, accurately reflecting the varied wearing styles encountered in real-life scenarios, tailored to individual preferences and fashion aspirations. However, current methods predominantly perform a direct replacement of the original clothing with the target clothing, following the same dressing pattern. This limited control over clothing adaptation may result in fixed and monotonous try-on outputs. To delve into More Fashion Possibilities with Fine-Grained Adaptations in Virtual Try-On, we propose a novel virtual try-on method, termed MOFA-VTON, which allows adjustment for clothing adaptations in try-on results through simple sketches by users. Specifically, we first design a mask construction strategy that transforms user-drawn curve sketches into a dual-region mask, replacing the traditional clothing-agnostic mask and providing fine-grained layout guidance for the subsequent generation process. Further, we propose layout adjustment blocks that utilize the cross-attention mechanism to independently learn layout correspondences for upper and lower regions of the human body, refining the spatial arrangement of the two regions. With these implementations, our method enables flexible and fine-grained adaptations of target clothing, overcoming the constraints of a fixed layout. Extensive experiments on VITON-HD and DressCode datasets demonstrate that our proposed MOFA-VTON outperforms previous state-of-the-art methods and provides more fashion possibilities for virtual try-on.

cs.CV

MOFA-VTON: More Fashion Possibilities with Fine-Grained Adaptations in Virtual Try-On

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度解读

原文摘要

相关论文

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

SSD: Spatially Speculative Decoding Accelerates Autoregressive Image Generation

CalTennis: Large Multi-View Tennis Video Dataset and Benchmark of Monocular-to-3D Pose Estimation

Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

EventDrive: Event Cameras for Vision-Language Driving Intelligence