EndoVGGT: GNN-Enhanced Depth Estimation for Surgical 3D Reconstruction

TL;DR

EndoVGGT通过DeGAT模块提升手术3D重建的深度估计，PSNR提高24.6%，SSIM提高9.1%。

cs.CV 🔴 高级 2026-03-26 47 次浏览

Falong Fan Yi Xie Arnis Lektauers Bo Liu Jerzy Rozenblit

深度估计图神经网络手术重建 3D重建跨数据集泛化

核心发现

方法论

EndoVGGT框架通过DeGAT模块动态构建特征空间语义图，捕捉软组织区域的长程相关性。DeGAT模块不依赖静态空间邻域，而是通过特征空间的动态图构建来实现跨遮挡的结构线索传播，从而提高全局一致性和非刚性变形恢复能力。该方法在SCARED数据集上进行了广泛实验，验证了其在手术场景3D重建中的有效性。

关键结果

在SCARED数据集上，EndoVGGT方法的PSNR提高了24.6%，从而显著提升了重建的保真度。此外，SSIM提高了9.1%，表明该方法在结构一致性方面的显著改进。
在跨数据集泛化能力方面，EndoVGGT在未见过的SCARED和EndoNeRF领域中表现出强大的零样本泛化能力，验证了DeGAT模块学习到的域无关几何先验。
通过消融实验，验证了DeGAT模块在特征级别的集成能够显著提升重建性能，尤其是在处理非刚性场景时表现出色。

研究意义

EndoVGGT框架通过引入DeGAT模块，解决了传统固定拓扑方法在处理低纹理表面、镜面高光和器械遮挡时的几何连续性破碎问题。该方法不仅提高了手术场景下3D重建的精度，还展示了其在跨数据集泛化中的强大能力。这一研究为手术机器人感知提供了更为准确的几何信息，推动了手术导航和训练的进步。

技术贡献

EndoVGGT的技术贡献在于其动态特征空间建模能力，能够在不依赖场景优化的情况下实现强大的零样本泛化。DeGAT模块通过动态构建语义图，捕捉到跨遮挡的长程相关性，显著提升了非刚性变形恢复能力，与现有的NeRF和高斯撒点方法相比，提供了更高效的解决方案。

新颖性

EndoVGGT首次在手术3D重建中引入了DeGAT模块，通过动态特征空间建模实现了跨数据集的零样本泛化能力。与传统方法不同，该方法不依赖于场景优化，能够在处理复杂的非刚性场景时保持高保真度。

局限性

在处理极端复杂的手术场景时，EndoVGGT可能会出现性能下降的情况，尤其是在存在大量遮挡和快速运动的情况下。
该方法在计算复杂度上仍然较高，可能限制其在实时应用中的使用。
在某些特定的手术场景中，可能需要进一步的优化以提高精度。

未来方向

未来的研究方向包括进一步优化EndoVGGT的计算效率，以适应实时应用的需求。此外，可以探索将该方法应用于其他类型的手术场景，验证其在更广泛领域的适用性。同时，结合时间一致性和机器人导航的扩展也将是一个值得探索的方向。

AI 总览摘要

在现代手术实践中，精确的三维重建对于手术机器人感知至关重要。然而，现有方法在处理低纹理表面、镜面高光和器械遮挡时，往往会导致几何连续性破碎，限制了其在手术场景中的应用。

为了解决这些问题，本文提出了EndoVGGT框架，该框架通过引入DeGAT模块，动态构建特征空间语义图，捕捉软组织区域的长程相关性。与传统的固定拓扑方法不同，DeGAT模块能够在特征空间中实现动态图构建，从而在跨遮挡的情况下实现结构线索的稳健传播。

EndoVGGT在SCARED数据集上进行了广泛的实验，结果显示其在重建保真度和结构一致性方面显著优于现有方法。具体来说，PSNR提高了24.6%，SSIM提高了9.1%，验证了该方法在手术场景3D重建中的有效性。

此外，EndoVGGT展示了强大的零样本跨数据集泛化能力，在未见过的SCARED和EndoNeRF领域中表现出色。这表明DeGAT模块能够学习到域无关的几何先验，为手术机器人感知提供了更为准确的几何信息。

尽管EndoVGGT在处理复杂的非刚性场景时表现出色，但其计算复杂度较高，可能限制其在实时应用中的使用。未来的研究方向包括进一步优化计算效率，并探索其在其他类型手术场景中的适用性。

深度分析

研究背景

三维重建技术在手术导航、机器人辅助和技能评估中起着关键作用。早期的几何和深度学习管道为这一领域奠定了基础，但近年来的研究趋势逐渐转向隐式神经表示，如NeRF和显式3D高斯撒点。然而，这些方法在手术场景中面临着固有的非刚性、软组织变形和动态器械遮挡的挑战，限制了其大规模推广应用。为了解决这些效率瓶颈，近年来出现了基于大规模重建模型的场景无关、前馈式替代方案。

核心问题

现有的大规模重建模型主要训练在刚性、以物体为中心的数据集上，假设几何稳定且光照稳定。然而，手术场景具有固有的非刚性、软组织变形和动态器械遮挡，直接部署通用域模型会产生伪影，包括组织拓扑破坏和深度误差。此外，基于NeRF或高斯撒点的手术方法依赖于每个场景的优化，需要对每个新案例进行重复拟合，限制了其在多样化手术中的大规模泛化能力。

核心创新

EndoVGGT框架通过引入DeGAT模块，动态构建特征空间语义图，捕捉软组织区域的长程相关性。与传统的固定拓扑方法不同，DeGAT模块能够在特征空间中实现动态图构建，从而在跨遮挡的情况下实现结构线索的稳健传播。该方法在SCARED数据集上进行了广泛的实验，验证了其在手术场景3D重建中的有效性。

方法详解

�� DeGAT模块：动态构建特征空间语义图，捕捉软组织区域的长程相关性。
�� 特征空间建模：通过特征空间的动态图构建实现跨遮挡的结构线索传播。
�� 实验验证：在SCARED数据集上进行广泛实验，验证其在手术场景3D重建中的有效性。

实验设计

实验设计包括在SCARED数据集上的广泛实验，验证EndoVGGT在手术场景3D重建中的有效性。实验结果显示，EndoVGGT在重建保真度和结构一致性方面显著优于现有方法。具体来说，PSNR提高了24.6%，SSIM提高了9.1%。此外，EndoVGGT展示了强大的零样本跨数据集泛化能力，在未见过的SCARED和EndoNeRF领域中表现出色。

结果分析

实验结果显示，EndoVGGT在重建保真度和结构一致性方面显著优于现有方法。具体来说，PSNR提高了24.6%，SSIM提高了9.1%。此外，EndoVGGT展示了强大的零样本跨数据集泛化能力，在未见过的SCARED和EndoNeRF领域中表现出色。这表明DeGAT模块能够学习到域无关的几何先验，为手术机器人感知提供了更为准确的几何信息。

应用场景

EndoVGGT框架可以直接应用于手术导航和机器人辅助中，提高手术场景下的3D重建精度。其强大的零样本跨数据集泛化能力使其能够在未见过的手术场景中保持高保真度，为手术机器人感知提供了更为准确的几何信息。

局限与展望

尽管EndoVGGT在处理复杂的非刚性场景时表现出色，但其计算复杂度较高，可能限制其在实时应用中的使用。此外，在处理极端复杂的手术场景时，可能会出现性能下降的情况，尤其是在存在大量遮挡和快速运动的情况下。未来的研究方向包括进一步优化计算效率，并探索其在其他类型手术场景中的适用性。

通俗解读非专业人士也能看懂

想象一下你在厨房里做饭。你需要知道每个食材的确切位置和状态，以便做出美味的菜肴。EndoVGGT就像一个超级智能的厨房助手，它可以通过观察厨房的每个角落，准确地告诉你食材的位置和状态。它不仅能看到眼前的东西，还能通过分析过去的经验，预测食材的变化趋势。这样，即使有些食材被锅盖遮住了，它也能准确地告诉你它们的位置。这种能力在手术中尤为重要，因为医生需要精确的3D信息来做出关键决策。EndoVGGT通过其独特的DeGAT模块，能够在复杂的手术场景中提供高精度的3D重建，为医生提供更好的视觉指导。

简单解释像给14岁少年讲一样

嘿，小伙伴！想象一下你在玩一个超级酷的3D游戏，你需要知道每个角色和物体的确切位置才能赢得比赛。EndoVGGT就像是游戏中的超级外挂，它能帮你看到游戏中每个角落的细节，即使有些角色被障碍物挡住了，它也能准确告诉你他们的位置。这种能力在现实生活中的手术中非常重要，因为医生需要精确的3D信息来做出关键决策。EndoVGGT通过其独特的DeGAT模块，能够在复杂的手术场景中提供高精度的3D重建，为医生提供更好的视觉指导。是不是很酷？

术语表

EndoVGGT

一种用于手术3D重建的框架，通过DeGAT模块提升深度估计的精度。

在论文中用于提高手术场景3D重建的精度。

DeGAT

变形感知图注意力模块，用于动态构建特征空间语义图，捕捉长程相关性。

在EndoVGGT框架中用于提高结构线索传播的稳健性。

PSNR

峰值信噪比，是衡量图像重建质量的指标，数值越高表示质量越好。

用于评估EndoVGGT在SCARED数据集上的重建保真度。

SSIM

结构相似性，是衡量图像结构一致性的指标，数值越高表示一致性越好。

用于评估EndoVGGT在SCARED数据集上的结构一致性。

SCARED

一个提供真实手术数据的数据集，用于验证3D重建方法的有效性。

在论文中用于评估EndoVGGT的重建性能。

EndoNeRF

一个用于评估重建鲁棒性的数据集，包含拓扑变化和组织变形的场景。

用于验证EndoVGGT在复杂场景中的泛化能力。

NeRF

神经辐射场，一种用于场景表示的隐式神经网络方法。

与EndoVGGT进行性能对比的基准方法。

3D Gaussian Splatting

一种用于实时辐射场渲染的显式方法，通过高斯分布实现。

与EndoVGGT进行性能对比的基准方法。

LPIPS

感知图像补丁相似性，是衡量图像感知质量的指标。

用于评估EndoVGGT在不同场景中的重建质量。

Zero-shot generalization

零样本泛化，指模型在未见过的数据集上保持高性能的能力。

EndoVGGT展示了强大的零样本跨数据集泛化能力。

开放问题这项研究留下的未解疑问

1 如何在保持高精度的同时进一步降低EndoVGGT的计算复杂度，以适应实时应用的需求？目前的方法在计算复杂度上仍然较高，可能限制其在实时应用中的使用。
2 在极端复杂的手术场景中，EndoVGGT的性能下降原因是什么？是否可以通过进一步优化DeGAT模块来解决这一问题？
3 如何将EndoVGGT应用于其他类型的手术场景？是否需要对模型进行特定的调整以适应不同的手术环境？
4 在处理快速运动和大量遮挡的情况下，EndoVGGT的性能如何？是否可以通过结合时间一致性来提高模型的鲁棒性？
5 未来是否可以将EndoVGGT与其他手术导航技术结合，以提供更为全面的手术辅助？这需要哪些技术上的突破？

应用场景

近期应用

手术导航

EndoVGGT可以用于手术导航中，提供精确的3D重建信息，帮助医生在复杂的手术场景中做出关键决策。

机器人辅助

在机器人辅助手术中，EndoVGGT可以提供高精度的几何信息，提高手术机器人的感知能力和操作精度。

手术训练

EndoVGGT可以用于手术训练中，提供真实的手术场景重建，帮助医生提高手术技能。

远期愿景

实时手术监控

未来，EndoVGGT可以用于实时手术监控中，提供实时的3D重建信息，帮助医生更好地掌握手术进程。

跨领域应用

EndoVGGT的动态特征空间建模能力可以扩展到其他领域，如工业检测和自动驾驶，提供高精度的3D重建解决方案。

原文摘要

Accurate 3D reconstruction of deformable soft tissues is essential for surgical robotic perception. However, low-texture surfaces, specular highlights, and instrument occlusions often fragment geometric continuity, posing a challenge for existing fixed-topology approaches. To address this, we propose EndoVGGT, a geometry-centric framework equipped with a Deformation-aware Graph Attention (DeGAT) module. Rather than using static spatial neighborhoods, DeGAT dynamically constructs feature-space semantic graphs to capture long-range correlations among coherent tissue regions. This enables robust propagation of structural cues across occlusions, enforcing global consistency and improving non-rigid deformation recovery. Extensive experiments on SCARED show that our method significantly improves fidelity, increasing PSNR by 24.6% and SSIM by 9.1% over prior state-of-the-art. Crucially, EndoVGGT exhibits strong zero-shot cross-dataset generalization to the unseen SCARED and EndoNeRF domains, confirming that DeGAT learns domain-agnostic geometric priors. These results highlight the efficacy of dynamic feature-space modeling for consistent surgical 3D reconstruction.

cs.CV cs.AI

参考文献 (20)

VGGT: Visual Geometry Grounded Transformer

Jianyuan Wang, Minghao Chen, Nikita Karaev 等

2025 864 引用 ⭐ 高影响力查看解读 →

Neural Rendering for Stereo 3D Reconstruction of Deformable Tissues in Robotic Surgery

Yuehao Wang, Yonghao Long, Siu Hin Fan 等

2022 194 引用 ⭐ 高影响力查看解读 →

FiLM: Visual Reasoning with a General Conditioning Layer

Ethan Perez, Florian Strub, H. D. Vries 等

2017 3250 引用查看解读 →

EndoSLAM dataset and an unsupervised monocular visual odometry and depth estimation approach for endoscopic videos

K. Ozyoruk, Guliz Irem Gokceler, Gulfize Coskun 等

2021 242 引用

Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)

Djork-Arné Clevert, Thomas Unterthiner, Sepp Hochreiter

2015 5992 引用查看解读 →

ZoeDepth: Zero-shot Transfer by Combining Relative and Metric Depth

Shariq Farooq Bhat, R. Birkl, Diana Wofk 等

2023 843 引用查看解读 →

Scale-aware monocular reconstruction via robot kinematics and visual data in neural radiance fields

Ruofeng Wei, Jiaxin Guo, Yiang Lu 等

2024 6 引用

Structure-from-Motion Revisited

Johannes L. Schönberger, Jan-Michael Frahm

2016 7012 引用

Robot-Based Procedure for 3D Reconstruction of Abdominal Organs Using the Iterative Closest Point and Pose Graph Algorithms

B. Göbel, Jonas Huurdeman, A. Reiterer 等

2025 3 引用

EndoGaussian: Real-time Gaussian Splatting for Dynamic Endoscopic Scene Reconstruction

Yifan Liu, Chenxin Li, Chen Yang 等

2024 28 引用查看解读 →

EndoSurf: Neural Surface Reconstruction of Deformable Tissues with Stereo Endoscope Videos

Ruyi Zha, Xuelian Cheng, Hongdong Li 等

2023 91 引用查看解读 →

Confidence-aware self-supervised learning for dense monocular depth estimation in dynamic laparoscopic scene

Yasuhide Hirohata, Maina Sogabe, Tetsuro Miyazaki 等

2023 5 引用

Surgical-DINO: adapter learning of foundation models for depth estimation in endoscopic surgery

Beilei Cui, Mobarak Islam Hoque, Long Bai 等

2024 75 引用查看解读 →

Autonomous Intelligent Navigation for Flexible Endoscopy Using Monocular Depth Guidance and 3-D Shape Planning

Yiang Lu, Ruofeng Wei, Bin Li 等

2023 16 引用查看解读 →

Vision Transformers for Dense Prediction

René Ranftl, Alexey Bochkovskiy, V. Koltun

2021 2543 引用查看解读 →

MVSNet: Depth Inference for Unstructured Multi-view Stereo

Yao Yao, Zixin Luo, Shiwei Li 等

2018 1549 引用查看解读 →

A Review of 3D Reconstruction Techniques for Deformable Tissues in Robotic Surgery

Mengya Xu, Ziqi Guo, An-Chi Wang 等

2024 9 引用查看解读 →

Video-based surgical skill assessment using 3D convolutional neural networks

Isabel Funke, S. T. Mees, J. Weitz 等

2019 224 引用查看解读 →

Surgical Navigation in the Anterior Skull Base Using 3-Dimensional Endoscopy and Surface Reconstruction.

Ryan A. Bartholomew, Haoyin Zhou, Maud Boreel 等

2024 17 引用

Stereo Correspondence and Reconstruction of Endoscopic Data Challenge

M. Allan, J. Mcleod, Congcong Wang 等

2021 199 引用查看解读 →

EndoVGGT: GNN-Enhanced Depth Estimation for Surgical 3D Reconstruction

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

EndoVGGT

DeGAT

PSNR

SSIM

SCARED

EndoNeRF

NeRF

3D Gaussian Splatting

LPIPS

Zero-shot generalization

开放问题 这项研究留下的未解疑问

应用场景

近期应用

手术导航

机器人辅助

手术训练

远期愿景

实时手术监控

跨领域应用

原文摘要

参考文献 (20)

相关论文

Deployment-Aligned Low-Precision Neural Architecture Search for Spaceborne Edge AI

DeepTaxon: An Interpretable Retrieval-Augmented Multimodal Framework for Unified Species Identification and Discovery

Learn&Drop: Fast Learning of CNNs based on Layer Dropping

SS3D: End2End Self-Supervised 3D from Web Videos

PASR: Pose-Aware 3D Shape Retrieval from Occluded Single Views

A Non-Invasive Alternative to RFID: Self-Sufficient 3D Identification of Group-Housed Livestock

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问