PASR: Pose-Aware 3D Shape Retrieval from Occluded Single Views

TL;DR

PASR方法在Pix3D和Pascal3D数据集上实现了81.59%和76.43%的Top-1检索准确率。

cs.CV 🔴 高级 2026-04-24 42 次浏览

Jiaxin Shi Guofeng Zhang Wufei Ma Naifu Liang Adam Kortylewski Alan Vuile

3D形状检索单视图姿态感知遮挡处理多任务学习

核心发现

方法论

PASR方法通过从2D基础模型DINOv3中提取知识并将其注入到3D编码器中，重新定义了3D形状检索问题。该方法通过姿态条件的3D投影与2D特征图的对齐，弥合了真实世界图像与合成网格之间的差距。在推理过程中，PASR通过分析合成进行测试时优化，联合搜索最佳重建输入图像特征图的形状和姿态。这种基于合成的优化对部分遮挡具有内在的鲁棒性，并对细粒度几何细节敏感。

关键结果

在Pix3D数据集上，PASR实现了81.59%的Top-1检索准确率，相比于之前的最佳基线方法，平均相对提高了11.09%。
在Pascal3D数据集上，PASR实现了76.43%的Top-1检索准确率，相比于之前的最佳基线方法，平均相对提高了7.15%。
PASR在遮挡场景下表现出色，尤其是在L3遮挡条件下，准确率仍然保持在63.05%。

研究意义

PASR方法在学术界和工业界具有重要意义。它解决了单视图3D形状检索中长期存在的鲁棒性和泛化问题，特别是在处理部分遮挡和细粒度几何细节时。通过将2D和3D特征对齐到2D空间，并在推理时进行姿态优化，PASR提供了一种新的方法来提高3D形状检索的准确性和鲁棒性。这种方法不仅在学术研究中具有重要价值，还可以在自动驾驶、机器人导航等实际应用中发挥作用。

技术贡献

PASR的技术贡献在于其通过分析合成的方式重新定义了3D形状检索问题，与现有的SOTA方法相比，提供了新的理论保证和工程可能性。通过将2D基础模型的知识注入到3D编码器中，PASR实现了对新网格形状的强泛化能力。此外，该方法在多任务学习中表现出色，能够同时进行3D形状检索、姿态估计和类别分类。

新颖性

PASR的创新之处在于首次将姿态感知引入到3D形状检索中，通过分析合成的方式进行特征级别的对齐。这种方法与之前的工作相比，提供了更强的鲁棒性和泛化能力，特别是在处理部分遮挡和细粒度几何细节时。

局限性

PASR在处理极端遮挡或复杂背景时可能会出现性能下降，因为这些情况可能导致特征对齐的困难。
该方法在推理时需要进行姿态优化，这可能导致计算开销增加，尤其是在处理大规模数据集时。
在某些情况下，可能需要更高质量的3D模型数据库以实现最佳性能。

未来方向

未来的研究方向包括探索如何在不增加计算开销的情况下提高姿态优化的效率，以及如何在更复杂的场景中进一步提高鲁棒性。此外，可以研究如何将PASR方法应用于更多的实际应用场景，如增强现实和虚拟现实中的3D对象识别。

AI 总览摘要

单视图3D形状检索是计算机视觉领域的一个基本问题，随着可用3D数据的增长，其重要性日益增加。然而，现有的方法在处理部分遮挡和细粒度几何细节时往往表现不佳，限制了其在真实世界应用中的鲁棒性和泛化能力。为了解决这个问题，本文提出了一种新的框架，称为姿态感知3D形状检索（PASR）。

PASR通过从2D基础模型DINOv3中提取知识并将其注入到3D编码器中，重新定义了3D形状检索问题。该方法通过姿态条件的3D投影与2D特征图的对齐，弥合了真实世界图像与合成网格之间的差距。在推理过程中，PASR通过分析合成进行测试时优化，联合搜索最佳重建输入图像特征图的形状和姿态。

在实验中，PASR在Pix3D和Pascal3D数据集上实现了显著的性能提升。在Pix3D数据集上，PASR实现了81.59%的Top-1检索准确率，相比于之前的最佳基线方法，平均相对提高了11.09%。在Pascal3D数据集上，PASR实现了76.43%的Top-1检索准确率，相比于之前的最佳基线方法，平均相对提高了7.15%。

然而，PASR在处理极端遮挡或复杂背景时可能会出现性能下降，因为这些情况可能导致特征对齐的困难。此外，该方法在推理时需要进行姿态优化，这可能导致计算开销增加。未来的研究方向包括探索如何在不增加计算开销的情况下提高姿态优化的效率，以及如何在更复杂的场景中进一步提高鲁棒性。

深度分析

研究背景

随着计算机视觉技术的发展，单视图3D形状检索成为一个重要的研究方向。传统的方法通常依赖于大规模的多模态对齐，将3D形状特征与现有的图像-文本嵌入空间对齐。然而，这些方法在处理真实世界图像时的泛化能力有限，因为在实际场景中，可用的3D模型往往不是2D图像的精确实例级匹配。此外，现有的方法通常学习全局嵌入，而不是显式的3D几何表示，这种视图无关的设计在部分遮挡情况下容易受到影响，限制了其对未见3D网格模型的泛化能力。

核心问题

单视图3D形状检索的核心问题在于如何在仅有单个RGB图像的情况下，检索到对应的3D网格。随着大规模3D数据的普及，开发有效的检索方法变得尤为重要。现有方法在处理部分遮挡和细粒度几何细节时表现不佳，限制了其在真实世界应用中的鲁棒性和泛化能力。

核心创新

PASR的核心创新在于通过分析合成的方式重新定义3D形状检索问题。首先，该方法通过从2D基础模型DINOv3中提取知识并将其注入到3D编码器中，实现了对新网格形状的强泛化能力。其次，PASR通过姿态条件的3D投影与2D特征图的对齐，弥合了真实世界图像与合成网格之间的差距。最后，在推理过程中，PASR通过分析合成进行测试时优化，联合搜索最佳重建输入图像特征图的形状和姿态。

方法详解

�� 在训练阶段，从2D基础模型DINOv3中提取细粒度知识并注入到3D编码器中。
�� 通过姿态条件的3D投影与2D特征图的对齐，弥合真实世界图像与合成网格之间的差距。
�� 在推理过程中，通过分析合成进行测试时优化，联合搜索最佳重建输入图像特征图的形状和姿态。
�� 采用差分渲染器将3D特征投影到2D特征空间，根据给定的相机姿态进行对齐。

实验设计

实验在Pix3D和Pascal3D数据集上进行，采用Top-1检索准确率作为主要评估指标。基线模型包括CMIC、SC-IBSR、OpenShape和Uni3D等。实验设计中考虑了不同遮挡级别（L0-L3），以评估模型在复杂场景下的鲁棒性。实验结果表明，PASR在所有遮挡条件下均优于现有方法，尤其在L3遮挡条件下表现出色。

结果分析

在Pix3D数据集上，PASR实现了81.59%的Top-1检索准确率，相比于之前的最佳基线方法，平均相对提高了11.09%。在Pascal3D数据集上，PASR实现了76.43%的Top-1检索准确率，相比于之前的最佳基线方法，平均相对提高了7.15%。PASR在遮挡场景下表现出色，尤其是在L3遮挡条件下，准确率仍然保持在63.05%。

应用场景

PASR方法在自动驾驶、机器人导航、增强现实和虚拟现实等领域具有广泛的应用潜力。在这些应用中，准确的3D形状检索和姿态估计对于实现高效的环境感知和交互至关重要。PASR提供了一种新的方法来提高3D形状检索的准确性和鲁棒性，尤其是在处理部分遮挡和细粒度几何细节时。

局限与展望

PASR在处理极端遮挡或复杂背景时可能会出现性能下降，因为这些情况可能导致特征对齐的困难。此外，该方法在推理时需要进行姿态优化，这可能导致计算开销增加，尤其是在处理大规模数据集时。在某些情况下，可能需要更高质量的3D模型数据库以实现最佳性能。

通俗解读非专业人士也能看懂

想象一下，你在厨房里做饭。你有一个食谱（2D图像），但你需要知道如何从中制作出一道完整的菜（3D形状）。现有的方法就像是直接从食谱中猜测成品的样子，可能会出错，尤其是当食材（图像细节）被遮挡时。PASR方法就像是一个聪明的厨师，它会先从食谱中提取关键步骤（2D特征），然后在厨房里（3D空间）一步步地尝试，直到做出最接近食谱描述的菜。即使有些食材被遮挡，它也能通过分析其他步骤来推测出最合理的做法。这样一来，无论是简单的菜还是复杂的宴席，它都能做得很好。

简单解释像给14岁少年讲一样

嘿，小伙伴们！想象一下你在玩一个超级酷的游戏，你只有一张图片，但你需要找到这个图片对应的3D模型。就像在Minecraft里，你只有一个方块的图片，但你想知道整个建筑是什么样子的。现有的方法就像是直接猜测这个建筑的样子，可能会出错，尤其是当图片的一部分被遮挡时。PASR方法就像是一个超级聪明的玩家，它会先从图片中提取关键的信息，然后在游戏中一步步地尝试，直到找到最接近图片描述的建筑。即使有些部分被遮挡，它也能通过分析其他部分来推测出最合理的样子。这样一来，无论是简单的建筑还是复杂的城堡，它都能找到最接近的模型！

术语表

3D形状检索 (3D Shape Retrieval)

从给定的2D图像中检索出对应的3D形状的过程。

在本文中，3D形状检索是核心任务，PASR方法通过姿态感知的方式提高了检索准确率。

单视图 (Single View)

仅使用一个视角的图像进行分析和处理。

PASR方法通过单视图图像进行3D形状检索，克服了遮挡和细节缺失的问题。

姿态感知 (Pose-Aware)

考虑对象在空间中的姿态信息，以提高分析的准确性。

PASR方法通过姿态感知的方式进行3D形状检索，提高了对细粒度几何细节的敏感性。

遮挡 (Occlusion)

图像中某些部分被其他物体遮挡，导致信息缺失。

PASR方法在处理部分遮挡时表现出色，能够准确检索3D形状。

多任务学习 (Multi-task Learning)

同时进行多个相关任务的学习，以提高整体性能。

PASR方法在多任务学习中表现出色，能够同时进行3D形状检索、姿态估计和类别分类。

DINOv3

一种2D基础模型，用于提取图像的细粒度特征。

PASR方法从DINOv3中提取知识并将其注入到3D编码器中。

分析合成 (Analysis-by-Synthesis)

通过合成的方式进行分析，以提高对复杂场景的理解。

PASR方法通过分析合成的方式进行测试时优化，提高了对遮挡和细节的鲁棒性。

差分渲染器 (Differentiable Renderer)

一种能够在渲染过程中进行梯度计算的渲染器。

PASR方法使用差分渲染器将3D特征投影到2D特征空间。

Pix3D

一个用于3D形状检索的基准数据集，包含多个类别的3D模型。

PASR方法在Pix3D数据集上进行了实验，验证了其性能。

Pascal3D

一个用于3D形状检索的基准数据集，包含多个类别的3D模型。

PASR方法在Pascal3D数据集上进行了实验，验证了其性能。

开放问题这项研究留下的未解疑问

1 如何在极端遮挡或复杂背景下提高特征对齐的准确性？现有方法在这些情况下可能会出现性能下降，需要进一步研究如何提高鲁棒性。
2 如何在不增加计算开销的情况下提高姿态优化的效率？现有方法在推理时需要进行姿态优化，可能导致计算开销增加。
3 如何在更复杂的场景中进一步提高鲁棒性？现有方法在处理简单场景时表现良好，但在复杂场景中可能会出现性能下降。
4 如何将PASR方法应用于更多的实际应用场景，如增强现实和虚拟现实中的3D对象识别？
5 如何在大规模数据集上实现最佳性能？现有方法可能需要更高质量的3D模型数据库以实现最佳性能。

应用场景

近期应用

自动驾驶

在自动驾驶中，PASR方法可以用于实时3D形状检索和姿态估计，提高环境感知的准确性和鲁棒性。

机器人导航

在机器人导航中，PASR方法可以用于识别和定位3D对象，提高导航的精确性和安全性。

增强现实

在增强现实中，PASR方法可以用于识别和跟踪3D对象，提高用户体验的沉浸感和交互性。

远期愿景

虚拟现实

在虚拟现实中，PASR方法可以用于创建和操控虚拟环境中的3D对象，提供更真实和沉浸的体验。

智能城市

在智能城市中，PASR方法可以用于实时监控和管理城市基础设施，提高城市管理的效率和安全性。

原文摘要

Single-view 3D shape retrieval is a fundamental yet challenging task that is increasingly important with the growth of available 3D data. Existing approaches largely fall into two categories: those using contrastive learning to map point cloud features into existing vision-language spaces and those that learn a common embedding space for 2D images and 3D shapes. However, these feed-forward, holistic alignments are often difficult to interpret, which in turn limits their robustness and generalization to real-world applications. To address this problem, we propose Pose-Aware 3D Shape Retrieval (PASR), a framework that formulates retrieval as a feature-level analysis-by-synthesis problem by distilling knowledge from a 2D foundation model (DINOv3) into a 3D encoder. By aligning pose-conditioned 3D projections with 2D feature maps, our method bridges the gap between real-world images and synthetic meshes. During inference, PASR performs a test-time optimization via analysis-by-synthesis, jointly searching for the shape and pose that best reconstruct the patch-level feature map of the input image. This synthesis-based optimization is inherently robust to partial occlusion and sensitive to fine-grained geometric details. PASR substantially outperforms existing methods on both clean and occluded 3D shape retrieval datasets by a wide margin. Additionally, PASR demonstrates strong multi-task capabilities, achieving robust shape retrieval, competitive pose estimation, and accurate category classification within a single framework.

cs.CV

参考文献 (20)

Uni3D: Exploring Unified 3D Representation at Scale

Junsheng Zhou, Jinsheng Wang, Baorui Ma 等

2023 203 引用 ⭐ 高影响力查看解读 →

OpenShape: Scaling Up 3D Shape Representation Towards Open-World Understanding

Minghua Liu, Ruoxi Shi, Kaiming Kuang 等

2023 206 引用 ⭐ 高影响力查看解读 →

DINOv3

Oriane Sim'eoni, Huy V. Vo, Maximilian Seitzer 等

2025 626 引用查看解读 →

Towards Large-Scale 3D Representation Learning with Multi-Dataset Point Prompt Training

Xiaoyang Wu, Zhuotao Tian, Xin Wen 等

2023 89 引用查看解读 →

RoboTron-Mani: All-in-One Multimodal Large Model for Robotic Manipulation

Feng Yan, Fanfan Liu, Liming Zheng 等

2024 13 引用查看解读 →

Robust Category-Level 6D Pose Estimation with Coarse-to-Fine Rendering of Neural Features

Wufei Ma, Angtian Wang, A. Yuille 等

2022 32 引用查看解读 →

PointCLIP: Point Cloud Understanding by CLIP

Renrui Zhang, Ziyu Guo, Wei Zhang 等

2021 618 引用查看解读 →

Location Field Descriptors: Single Image 3D Model Retrieval in the Wild

Alexander Grabner, P. Roth, V. Lepetit

2019 40 引用查看解读 →

Generalizing Single-View 3D Shape Retrieval to Occlusions and Unseen Objects

Qirui Wu, Daniel Ritchie, M. Savva 等

2023 9 引用查看解读 →

A survey of content based 3D shape retrieval methods

J. Tangelder, R. Veltkamp

2004 1463 引用

Single Image 3D Shape Retrieval via Cross-Modal Instance and Category Contrastive Learning

Ming-Xian Lin, Jie Yang, He Wang 等

2021 34 引用

ImageNet3D: Towards General-Purpose Object-Level 3D Understanding

Wufei Ma, Guanning Zeng, Guofeng Zhang 等

2024 18 引用查看解读 →

CLIP goes 3D: Leveraging Prompt Tuning for Language Grounded 3D Recognition

Deepti Hegde, Jeya Maria Jose Valanarasu, Vishal M. Patel

2023 103 引用查看解读 →

Scaling 3D Compositional Models for Robust Classification and Pose Estimation

Xiaoding Yuan, ∗. GuofengZhang, ∗. PrakharKaushik 等

2 引用

Chain of Semantics Programming in 3D Gaussian Splatting Representation for 3D Vision Grounding

Jiaxin Shi, Mingyue Xiang, Hao Sun 等

2025 2 引用

Templates for 3D Object Pose Estimation Revisited: Generalization to New Objects and Robustness to Occlusions

Van Nguyen Nguyen, Yinlin Hu, Yang Xiao 等

2022 99 引用查看解读 →

A survey on deep geometry learning: From a representation perspective

Yun-Peng Xiao, Yu-Kun Lai, Fang-Lue Zhang 等

2020 122 引用查看解读 →

OPEN: Occlusion-Invariant Perception Network for Single Image-Based 3D Shape Retrieval

Fupeng Chu, Yang Cong, Ronghan Chen

2024 4 引用

SpatialReasoner: Towards Explicit and Generalizable 3D Spatial Reasoning

Wufei Ma, Yu-Cheng Chou, Qihao Liu 等

2025 38 引用查看解读 →

Splat-Nav: Safe Real-Time Robot Navigation in Gaussian Splatting Maps

Timothy Chen, O. Shorinwa, Joseph Bruno 等

2024 90 引用查看解读 →

PASR: Pose-Aware 3D Shape Retrieval from Occluded Single Views

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

3D形状检索 (3D Shape Retrieval)

单视图 (Single View)

姿态感知 (Pose-Aware)

遮挡 (Occlusion)

多任务学习 (Multi-task Learning)

DINOv3

分析合成 (Analysis-by-Synthesis)

差分渲染器 (Differentiable Renderer)

Pix3D

Pascal3D

开放问题 这项研究留下的未解疑问

应用场景

近期应用

自动驾驶

机器人导航

增强现实

远期愿景

虚拟现实

智能城市

原文摘要

参考文献 (20)

相关论文

Deployment-Aligned Low-Precision Neural Architecture Search for Spaceborne Edge AI

DeepTaxon: An Interpretable Retrieval-Augmented Multimodal Framework for Unified Species Identification and Discovery

Learn&Drop: Fast Learning of CNNs based on Layer Dropping

SS3D: End2End Self-Supervised 3D from Web Videos

A Non-Invasive Alternative to RFID: Self-Sufficient 3D Identification of Group-Housed Livestock

EV-CLIP: Efficient Visual Prompt Adaptation for CLIP in Few-shot Action Recognition under Visual Challenges

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问