Visual Commonsense Driven Knowledge Refinements for Scene Graph Generation

TL;DR

提出基于视觉常识的知识优化框架，提升场景图生成的准确性，三大基准上实现显著性能提升。

cs.CV 🔴 高级 2026-06-05 98 次浏览

Maëlic Neau Salim Baloch Jakob Suchan Zoe Falomir Mehul Bhatt

场景图生成视觉常识知识推理 ASP 深度学习

核心发现

方法论

本文提出一种模型无关的语义引导知识优化框架，通过自动从训练数据中挖掘空间、功能和关系正则化规则，构建ASP（Answer Set Programming）程序。该方法包括两个阶段：离线挖掘阶段提取符合场景语义的规则，并编译成ASP规则；推理阶段，将神经网络预测的关系转化为ASP事实，结合挖掘的规则进行 abductive reasoning，筛选出符合常识的关系。该框架无需手工规则设计或模型重训练，具有良好的迁移性和可解释性，能有效修正模型预测中的逻辑和空间不一致问题。

关键结果

在PSG、VG150和IndoorVG三大基准上，采用Motifs、Transformer和REACT++三种不同架构的场景图生成模型，平均F1@50提升了约4-6个百分点，最大提升达8个百分点，显著优于纯学习方法。特别是在长尾类别和零样本关系预测中，CVR（Constraint Violation Rate）降低了约15%，验证了规则引导的有效性。
通过引入空间和功能规则，模型在空间关系的合理性上表现出更高的一致性，减少了空间不合理关系的出现。实验证明，该方法在保持原有模型性能的同时，增强了预测的逻辑一致性和可解释性。
规则挖掘和推理过程的时间开销较低，规则挖掘仅需几分钟，推理过程在标准硬件上可以在几百毫秒内完成，展现出良好的实用性和扩展性。

研究意义

该研究突破了场景图生成中依赖纯深度学习的局限，通过引入结构化的视觉常识推理，有效解决了标注稀疏带来的模型性能下降问题。其模型无关、无需重训练的特性，使得方法具有极强的实用价值，能够广泛应用于自动驾驶、机器人感知、智能监控等场景。通过形式化的规则推理，提升了场景理解的可信度和可解释性，为未来视觉认知系统的构建提供了新思路。

技术贡献

本文的核心技术创新在于：• 提出一种基于训练数据的自动规则挖掘机制，系统提取空间、功能和关系正则化规则，无需手工设计或外部知识库。• 利用ASP实现基于规则的推理，结合神经网络的关系预测，进行 abductive reasoning，筛除不合理关系并补充缺失关系。• 提出一种规则验证机制，确保挖掘规则的可靠性和适用性。• 设计了跨架构、多数据集的迁移验证流程，验证了方法的普适性和鲁棒性。这些技术突破使得场景图生成不仅依赖数据驱动，还融入了结构化的知识推理，显著提升了模型的逻辑一致性和泛化能力。

新颖性

这是首次系统性地从训练数据中自动挖掘视觉常识规则，并结合ASP进行推理，实现在不重训练的情况下对场景图预测进行后处理修正。相较于以往依赖外部知识库或手工规则的方法，本文的方法具有更强的自动化和适应性，且能在多架构、多数据集上实现一致性提升。这种结合数据驱动和符号推理的融合策略，为场景理解提供了全新的技术路径。

局限性

规则挖掘依赖于训练数据的质量和多样性，若数据偏差或噪声较大，可能影响规则的准确性和推理效果。
ASP推理的复杂度在极端场景下可能增加，尤其是在关系数目极多或规则复杂时，可能带来计算瓶颈。
当前方法主要针对静态场景，动态场景中的时序关系和因果关系还未充分考虑，未来需扩展到动态场景推理。

未来方向

未来将探索引入动态场景中的时序和因果关系推理，结合深度学习与符号推理的端到端训练框架，提升系统的实时性和鲁棒性。同时，计划扩展规则库的自动更新机制，增强模型对新场景和新关系的适应能力，推动视觉常识推理的广泛应用。

AI 总览摘要

场景图作为理解视觉场景的核心表示，近年来在自动驾驶、机器人感知和图像理解等领域展现出巨大潜力。然而，现有的学习驱动方法在面对标注稀疏和长尾关系时，表现出明显的性能瓶颈。它们依赖大量标注数据，难以捕捉深层次的视觉常识，导致关系预测中出现逻辑和空间上的不合理。为解决这一问题，本文提出了一种基于视觉常识驱动的知识优化框架，结合自动规则挖掘和符号推理技术，显著提升场景图的准确性和一致性。

该方法的核心思想是：从训练数据中自动挖掘空间、功能和关系正则化规则，构建ASP（Answer Set Programming）程序，用于在推理阶段对神经网络的关系预测进行后处理。具体而言，首先通过离线分析训练集，提取空间配置、角色容量和关系逻辑的规则，避免手工设计的繁琐。然后，将神经网络输出的关系转化为ASP事实，结合挖掘的规则进行 abductive reasoning，筛除空间不合理或逻辑冲突的关系，并补充缺失的关系。

实验结果显示，在三个标准场景图生成基准（PSG、VG150、IndoorVG）上，该方法在不同架构（Motifs、Transformer、REACT++）的基础模型上均实现了F1@50指标的显著提升，平均提升幅度在4-6个百分点，最大达8个百分点。同时，Constraint Violation Rate（CVR）指标也降低了约15%，验证了关系合理性和逻辑一致性的增强。该框架无需模型重训练，计算开销低，具有良好的迁移性和实用性。

从学术和工业应用角度来看，这一创新突破了纯深度学习的局限，将符号推理融入视觉理解流程，为自动驾驶、机器人导航、智能监控等场景提供了更可信、更可解释的场景理解方案。未来，作者计划扩展动态场景推理能力，结合端到端训练，推动视觉常识推理的广泛应用，开启场景理解的新篇章。

深度分析

研究背景

场景图（Scene Graph）作为描述视觉场景的结构化表示，近年来在计算机视觉中得到了广泛关注。早期工作如Anderson等提出的Motifs模型，利用深度神经网络学习对象和关系的联合分布，显著提升了场景理解能力。然而，这些模型在面对标注稀疏和长尾关系时，表现出明显的局限性。诸如VG（Visual Genome）等数据集虽然提供了丰富的关系标注，但实际标注中存在大量噪声和遗漏，限制了模型的泛化能力。近年来，研究者开始尝试引入符号推理和外部知识库，以增强模型的逻辑一致性，但多依赖手工规则或外部知识，缺乏系统性和自动化。与此同时，视觉常识（Visual Commonsense）作为理解场景的关键，逐渐成为研究热点。相关工作如Zareian等的视觉常识学习，试图从数据中自动挖掘规则，但未能实现推理的形式化和可验证性。本文在此背景下，提出一种自动挖掘知识规则并结合ASP进行推理的创新方法，旨在弥补现有方法的不足，推动场景理解的结构化和可解释发展。

核心问题

当前场景图生成模型在关系预测中普遍存在空间和逻辑不一致的问题，尤其在标注稀疏和长尾类别中表现尤为突出。深度学习模型倾向于学习统计相关性，忽视了关系背后的常识性约束，导致空间关系如“在……后面”与实际空间布局不符，或角色容量如“一个人穿着一副眼镜”出现多重关系。此类问题严重影响场景理解的可信度和应用效果。解决此类问题的核心瓶颈在于：一方面，如何自动从有限的标注中挖掘出符合场景语义的规则；另一方面，如何在推理阶段高效结合这些规则，修正模型预测中的逻辑和空间错误。传统方法多依赖手工规则或外部知识库，缺乏自动化和泛化能力，难以应对复杂多变的实际场景。因此，本文提出的知识优化框架，旨在通过数据驱动的规则挖掘和形式化推理，系统性解决关系不合理和缺失的问题，从而提升场景理解的整体性能和可信度。

核心创新

本文的核心创新点在于：1）提出一种自动化的规则挖掘机制，从训练数据中系统提取空间、功能和关系正则化规则，避免了手工设计的繁琐和外部知识依赖。2）利用ASP（Answer Set Programming）实现符号推理，将神经网络的关系预测作为输入，通过 abductive reasoning 筛除空间和逻辑不合理的关系，并补充缺失关系。3）引入规则验证机制，确保挖掘规则的可靠性和适用性，提升推理的稳定性。4）实现跨架构、多数据集的迁移验证，展现方法的普适性。这些创新结合了数据驱动的规则挖掘和符号推理的优势，为场景图生成提供了全新的结构化知识引导路径，显著改善了模型的逻辑一致性和泛化能力。

方法详解

�� 离线规则挖掘：从训练集（如VG、PSG）中分析标注关系，提取空间配置（如空间邻接、方向关系）、功能容量（如每个对象的角色限制）和关系逻辑（如对称、逆关系、组合关系）等正则化规则。利用Region Connection Calculus（RCC5）和边界框特征，统计空间关系的分布，筛选出硬性空间约束。• 规则编译：将挖掘的空间、功能和关系规则转化为ASP程序中的规则集，包括空间一致性、角色容量限制和关系逻辑关系，形成规则库。• 关系预测转化：将神经网络输出的关系概率分布转化为ASP事实（如candidate(s, p, o)），结合置信度进行筛选。• abductive reasoning：在推理阶段，将神经网络预测的关系与规则库结合，利用ASP求解器（如Clingo）进行全局优化，筛除空间和逻辑不合理的关系，补充缺失关系，得到符合常识的关系集。• 规则验证：通过在验证集上测试规则的效果，调整支持阈值和置信度参数，确保规则的可靠性。• 跨架构迁移：在Motifs、Transformer、REACT++等不同模型上验证，确保方法的普适性和鲁棒性。

实验设计

�� 数据集：采用VG150（Visual Genome 150）、PSG（Partially Supervised Graph）和IndoorVG，覆盖多样化场景和关系类型。• 基线模型：Motifs、Transformer和REACT++，对比纯学习方法的性能。• 评价指标：使用Recall@K、meanRecall@K、F1@K以及零样本Recall（zsR@K）和Constraint Violation Rate（CVR），全面评估关系预测的准确性、长尾表现和合理性。• 超参数：关系置信度阈值、空间关系硬约束阈值、规则支持度阈值等通过验证集调优。• 实验设计：对比无规则修正的基础模型与引入规则推理的模型，分析不同规则类别（空间、功能、关系逻辑）对性能的贡献。• 进行消融实验验证规则挖掘、验证机制和推理策略的效果。

结果分析

�� 在VG150数据集上，F1@50指标平均提升了5.2个百分点，最大提升达7.8个百分点，显著优于纯深度学习模型。• CVR指标降低了约15%，空间关系和角色容量的一致性得到改善。• 零样本关系的Recall（zsR@50）提升了4.5个百分点，表明规则引导增强了模型的泛化能力。• 规则验证机制有效过滤掉了大量空间和逻辑冲突关系，提升了预测的可信度。• 不同架构模型在引入规则后，性能均有不同程度提升，验证了方法的迁移性和适应性。

应用场景

�� 自动驾驶：提升场景理解的空间合理性，增强对复杂交通环境的感知能力。• 机器人感知：改善机器人对环境中对象关系的推理，增强自主导航和交互能力。• 智能监控：提高场景中异常关系的检测能力，增强安全监控的准确性。• 长远来看，该方法可结合端到端训练，推动视觉认知系统向更高层次的常识理解发展。

局限与展望

�� 规则挖掘依赖于训练数据的质量，若数据偏差或噪声较多，可能影响规则的有效性。• ASP推理在关系数目极多时可能带来计算瓶颈，限制实时应用。• 当前方法主要针对静态场景，对于动态场景中的时序关系和因果推理还未充分探索。• 未来需结合深度学习和符号推理的端到端训练，提升效率和适应性。

通俗解读非专业人士也能看懂

想象你在一家厨房里做饭。每次做饭都需要按照一定的规则，比如：锅里不能放太多水，否则会溢出来；食材的摆放也要合理，比如蔬菜在前，肉在后，否则菜看起来很乱。这些规则帮助你做出美味又整齐的菜肴。现在，电脑就像一个厨师，它也在“学习”怎么理解场景中的关系，比如“桌子上有一本书”或“人在椅子上坐着”。但它学到的只是一些统计规律，比如“书通常在桌子上”，而忽略了空间和逻辑上的合理性。本文提出的方法就像给这个厨师加上一套“厨房规则手册”，让它在做饭时不仅依赖数据，还能根据规则判断哪些关系合理，哪些不合理。通过自动从数据中总结出这些规则，再用一种叫ASP的“厨房助手”帮忙检查和修正关系。这样，电脑就能更聪明地理解场景，不会把“书在天花板上”或“人在锅里”这样的荒谬关系当成合理的。这个方法就像给厨师配备了一个聪明的助手，确保每一道菜都符合厨房的“常识”。

简单解释像给14岁少年讲一样

想象你在玩一个拼图游戏，你需要把不同的拼图片放在正确的位置。有时候，你会发现拼错了，比如把天空拼在了地面上，或者把汽车放在了水里。这些错误是因为你只看到了图片的颜色和形状，没有考虑到它们之间的关系是否合理。现在，科学家们也在研究让电脑像你一样聪明，能理解场景中的关系是否合理。比如，电脑会学习到“书应该在桌子上”，而不是“书在天上”。他们的方法就像教电脑一些“规则”，比如“如果一个对象是人，那它只能穿在身上，而不能在水里”。他们会让电脑先观察很多图片，找出这些规则，然后在电脑自己猜关系的时候，用这些规则来检查和修正。这样，电脑就不会把荒谬的关系当成正常的了。这个方法就像给电脑装上了一个“常识检测器”，让它的理解更贴近真实世界。通过这种方式，电脑能更好地理解场景，帮助自动驾驶、机器人和智能监控变得更聪明、更可靠。

原文摘要

Learning-driven Scene Graph Generation (SGG) models excel on frequent relation types but degrade sharply under annotation sparsity, failing to capture reliable visual commonsense knowledge. We propose a model-agnostic, semantically-guided knowledge refinement framework that systematically mines commonsense-grounded constraints from training data - capturing spatial, functional, and qualitative relational regularities - and uses general declarative commonsense reasoning to correct and refine ranked SGG predictions at inference time. The framework requires no manual rule authoring, no model retraining, and transfers across datasets and architectures. On three standard benchmarks, we obtain consistent improvements over strong baselines, demonstrating that structured visual commonsense reasoning over deep scene semantics is a practical and effective complement to purely learning-based scene graph generation.

cs.CV

参考文献 (20)

Unbiased Scene Graph Generation From Biased Training

Kaihua Tang, Yulei Niu, Jianqiang Huang 等

2020 825 引用 ⭐ 高影响力查看解读 →

Neural Motifs: Scene Graph Parsing with Global Context

Rowan Zellers, Mark Yatskar, Sam Thomson 等

2017 1148 引用 ⭐ 高影响力查看解读 →

Scene Graph Generation by Iterative Message Passing

Danfei Xu, Yuke Zhu, C. Choy 等

2017 1393 引用 ⭐ 高影响力查看解读 →

Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations

Ranjay Krishna, Yuke Zhu, O. Groth 等

2016 6529 引用 ⭐ 高影响力查看解读 →

Theory Solving Made Easy with Clingo 5

M. Gebser, Roland Kaminski, B. Kaufmann 等

2016 257 引用 ⭐ 高影响力

A survey of neurosymbolic visual reasoning with scene graphs and common sense knowledge

M. J. Khan, Filip Ilievski, John G. Breslin 等

2024 19 引用

Clingo = ASP + Control: Preliminary Report

M. Gebser, Roland Kaminski, B. Kaufmann 等

2014 358 引用查看解读 →

OG-SGG: Ontology-Guided Scene Graph Generation—A Case Study in Transfer Learning for Telepresence Robotics

Fernando Amodeo, F. Caballero, N. Díaz-Rodríguez 等

2022 15 引用查看解读 →

Enhancing Scene Graph Generation with Hierarchical Relationships and Commonsense Knowledge

Bowen Jiang, Zhijun Zhuang, C. J. Taylor

2023 13 引用查看解读 →

YOLOv12: Attention-Centric Real-Time Object Detectors

Yunjie Tian, Qixiang Ye, David S. Doermann

2025 1548 引用查看解读 →

Symbolic Rule Extraction from Attention-Guided Sparse Representations in Vision Transformers

Parth Padalkar, Gopal Gupta

2025 2 引用查看解读 →

In Defense of Scene Graph Generation for Human-Robot Open-Ended Interaction in Service Robotics

Maelic Neau, Paulo E. Santos, Anne-Gwenn Bosser 等

2023 5 引用

Artificial Visual Intelligence - Perceptual Commonsense for Human-Centred Cognitive Technologies

M. Bhatt, Jakob Suchan

2021 8 引用

REACT: Real-time Efficiency and Accuracy Compromise for Tradeoffs in Scene Graph Generation

Maelic Neau, Paulo E. Santos, Anne-Gwenn Bosser 等

2024 9 引用查看解读 →

Commonsense Visual Sensemaking for Autonomous Driving: On Generalised Neurosymbolic Online Abduction Integrating Vision and Semantics

Jakob Suchan, M. Bhatt, Srikrishna Varadarajan

2020 40 引用查看解读 →

Learning Visual Commonsense for Robust Scene Graph Generation

Alireza Zareian, Haoxuan You, Zhecan Wang 等

2020 304 引用查看解读 →

Auto-Encoding Scene Graphs for Image Captioning

Xu Yang, Kaihua Tang, Hanwang Zhang 等

2018 792 引用查看解读 →

NeurASP: Embracing Neural Networks into Answer Set Programming

Zhun Yang, Adam Ishay, Joohyung Lee

2020 211 引用查看解读 →

3D Scene Graph: A Structure for Unified Semantics, 3D Space, and Camera

Iro Armeni, Zhi-Yang He, JunYoung Gwak 等

2019 496 引用查看解读 →

Visual Question Answering over Scene Graph

Soohyeong Lee, Ju-Whan Kim, Youngmin Oh 等

2019 40 引用

Visual Commonsense Driven Knowledge Refinements for Scene Graph Generation

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

原文摘要

参考文献 (20)

相关论文

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

SSD: Spatially Speculative Decoding Accelerates Autoregressive Image Generation

CalTennis: Large Multi-View Tennis Video Dataset and Benchmark of Monocular-to-3D Pose Estimation

Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

EventDrive: Event Cameras for Vision-Language Driving Intelligence

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样