Do Metrics for Counterfactual Explanations Align with User Perception?

TL;DR

研究发现反事实解释的算法指标与用户感知不一致，需更人性化的评估方法。

cs.AI 🟡 进阶级 2026-03-17 63 次浏览

Felix Liedeker Basil Ell Philipp Cimiano Christoph Düsing

反事实解释用户感知算法指标人性化评估 XAI

核心发现

方法论

本研究通过实证研究比较算法评估指标与人类判断之间的关系。研究使用了三个数据集：Mushroom、Obesity Levels和Heart Disease。参与者对反事实解释的多个维度进行评分，并将这些评分与一组标准反事实指标进行比较。分析了个体关系和指标组合预测人类评估的程度。

关键结果

结果1：算法指标与人类评分的相关性普遍较弱，且强烈依赖于数据集。例如，在Mushroom数据集中，稀疏性和接近性与用户评分呈中度负相关（r=-0.38至-0.64）。
结果2：增加用于预测模型的指标数量并未带来可靠的改进，甚至可能降低性能，表明当前指标在捕捉人类相关标准方面存在结构性限制。
结果3：在Heart Disease数据集中，所有指标与用户评分的相关性均不显著，表明在不同数据集之间，指标与用户感知的关系差异显著。

研究意义

本研究的重要性在于揭示了当前广泛使用的反事实评估指标未能反映用户感知的关键方面。这表明需要更以人为中心的方法来评估可解释的人工智能。研究结果挑战了将自动化反事实指标视为人类评价可靠代理的常见做法，强调了在XAI系统评估中更好地反映人类判断的必要性。

技术贡献

技术贡献包括揭示了反事实解释的算法指标与用户感知之间的结构性不匹配。研究表明，现有的自动化指标在不同数据集上的表现不一致，且无法可靠地预测用户的解释质量评估。这为开发更具人性化的评估方法提供了理论依据。

新颖性

本研究首次系统地比较了反事实解释的算法指标与人类感知之间的关系。与以往研究不同，本研究不仅关注个体指标的相关性，还分析了指标组合的预测能力，揭示了现有指标的局限性。

局限性

局限1：研究仅使用了三个数据集，可能无法全面代表所有可能的应用场景。
局限2：参与者的背景和经验可能影响评分的主观性，未能完全消除个体差异的影响。

未来方向

未来研究可以扩展到更多的数据集和应用场景，以验证现有发现的普适性。此外，可以开发新的评估指标，更好地捕捉用户感知的解释质量，推动人性化评估方法的发展。

AI 总览摘要

在人工智能领域，解释性是建立信任的关键因素。反事实解释作为一种重要的解释方法，能够通过最小化输入实例的修改来展示模型预测的变化。然而，当前用于评估反事实解释的指标主要是算法指标，鲜有经过人类判断验证。这引发了一个重要问题：这些指标是否真正反映了用户的感知？

本研究通过实证研究直接比较了算法评估指标与人类判断之间的关系。研究使用了三个数据集：Mushroom、Obesity Levels和Heart Disease。参与者对反事实解释的多个维度进行评分，并将这些评分与一组标准反事实指标进行比较。研究分析了个体关系和指标组合预测人类评估的程度。

研究结果显示，算法指标与人类评分的相关性普遍较弱，且强烈依赖于数据集。例如，在Mushroom数据集中，稀疏性和接近性与用户评分呈中度负相关，而在Obesity Levels数据集中，用户更偏好信息丰富的解释。此外，增加用于预测模型的指标数量并未带来可靠的改进，甚至可能降低性能，表明当前指标在捕捉人类相关标准方面存在结构性限制。

这些发现挑战了将自动化反事实指标视为人类评价可靠代理的常见做法，强调了在XAI系统评估中更好地反映人类判断的必要性。研究结果表明，当前广泛使用的反事实评估指标未能反映用户感知的关键方面，需开发更以人为中心的方法来评估可解释的人工智能。

深度分析

研究背景

随着机器学习系统在各个领域的广泛应用，透明性和用户理解变得越来越重要。反事实解释是一种通过展示输入实例的最小修改来改变模型预测的解释方法。这种方法与人类自然的“如果...会怎样”思维方式相一致，因此在可解释人工智能（XAI）研究中备受关注。为了评估反事实解释的质量，研究者们提出了一系列算法指标，如稀疏性和接近性等。然而，这些指标通常缺乏与人类感知的实证验证。这种缺乏验证的现象在XAI领域并不罕见，类似的问题也出现在特征归因方法的忠实度指标中，这些指标之间的相关性较弱，甚至可能导致方法排名的矛盾。因此，研究自动化指标是否能够捕捉用户在解释中重视的内容显得尤为重要。

核心问题

核心问题在于当前用于评估反事实解释的算法指标是否真正反映了用户的感知。尽管这些指标在计算上是可行的，但它们是否能够捕捉到用户认为有意义、实用或值得信赖的解释特征仍然未知。现有的指标通常在孤立的情况下应用，缺乏与人类判断的对比验证。这导致了一个重要的研究问题：我们能否通过实证研究来揭示这些指标与用户感知之间的关系，从而推动更人性化的评估方法的发展。

核心创新

本研究的核心创新在于首次系统地比较了反事实解释的算法指标与人类感知之间的关系。具体创新包括：

1. 使用三个不同的数据集（Mushroom、Obesity Levels、Heart Disease）进行实证研究，确保结果的多样性和普适性。

2. 分析了个体指标与人类评分之间的关系，并进一步探讨了指标组合在预测人类评估中的表现。

3. 研究结果揭示了现有指标在不同数据集上的表现不一致，且无法可靠地预测用户的解释质量评估。

方法详解

方法详解：

�� 数据集选择：选择了三个来自UCI机器学习库的分类数据集：Mushroom、Obesity Levels和Heart Disease。
�� 反事实生成：使用基于原型的反事实生成方法，确保生成的实例接近原始实例并符合数据分布。
�� 用户研究设计：参与者对生成的反事实解释进行评分，评分维度包括准确性、理解性、可信度等。
�� 指标计算：计算了七个常用的自动化指标，包括稀疏性、接近性、可信度等。
�� 数据分析：使用皮尔逊相关系数分析指标与用户评分的关系，并使用监督学习模型评估指标组合的预测能力。

实验设计

实验设计：

�� 数据集：使用了Mushroom、Obesity Levels和Heart Disease三个数据集，分别涉及二分类和多分类任务。
�� 基线模型：使用XGBoost作为基线模型进行分类任务。
�� 反事实生成：为每个测试集实例生成反事实解释，使用基于原型的方法。
�� 用户研究：参与者对生成的反事实解释进行评分，评分维度包括准确性、理解性、可信度等。
�� 指标计算：计算了七个常用的自动化指标，包括稀疏性、接近性、可信度等。

结果分析

结果分析：

�� 在Mushroom数据集中，稀疏性和接近性与用户评分呈中度负相关，表明用户更偏好涉及较少和较小变化的反事实解释。
�� 在Obesity Levels数据集中，用户更偏好信息丰富的解释，多个指标与用户评分呈正相关。
�� 在Heart Disease数据集中，所有指标与用户评分的相关性均不显著，表明在不同数据集之间，指标与用户感知的关系差异显著。

应用场景

应用场景：

�� 本研究的结果可用于指导反事实解释方法的改进，开发更符合用户期望的解释方法。
�� 在医疗、金融等领域，反事实解释可以帮助用户更好地理解模型决策，提高信任度。
�� 研究结果也可用于评估其他类型的解释方法，推动XAI领域的发展。

局限与展望

局限与展望：

�� 研究仅使用了三个数据集，可能无法全面代表所有可能的应用场景。
�� 参与者的背景和经验可能影响评分的主观性，未能完全消除个体差异的影响。
�� 未来研究可以扩展到更多的数据集和应用场景，以验证现有发现的普适性。此外，可以开发新的评估指标，更好地捕捉用户感知的解释质量，推动人性化评估方法的发展。

通俗解读非专业人士也能看懂

想象你在厨房里做饭。反事实解释就像你在尝试不同的调料组合，看看哪种组合能让菜肴更美味。你可能会想，如果我少放点盐，味道会不会更好？或者如果我加点辣椒，会不会更有风味？这些小的改变就像反事实解释中的“最小修改”，它们帮助你理解不同因素如何影响最终的结果。

在人工智能中，反事实解释帮助我们理解模型是如何做出决策的。就像在厨房里，你可以通过改变某些输入（比如食材或调料）来观察结果的变化。在这个过程中，你会发现哪些因素对结果影响最大，哪些变化是可以接受的。

然而，当前用于评估这些解释的指标就像是一些标准化的评分系统，它们可能并不总是反映出你对菜肴的真实感受。就像有些人喜欢重口味，而有些人喜欢清淡，这种个人偏好可能无法通过简单的评分系统来捕捉。

因此，研究人员正在努力开发更人性化的评估方法，以便更好地反映用户对解释的真实感受。这就像是为每个食客量身定制的评分系统，能够更准确地反映出他们对菜肴的喜好。

简单解释像给14岁少年讲一样

嘿，小伙伴们！你有没有想过，如果你在游戏中做出不同的选择，结果会有什么不同？这就是我们所说的“反事实解释”！想象一下，你在玩一个冒险游戏，你的角色面前有两条路：一条通往神秘的森林，另一条通往危险的山洞。你可能会想，如果我选择了另一条路，会发生什么呢？

在人工智能中，反事实解释就像是帮助我们理解电脑是如何做出这些选择的。就像在游戏中，你可以尝试不同的选项，看看会有什么不同的结果。这样你就能更好地理解游戏的规则和机制。

不过，有时候这些解释可能并不总是很清楚。就像在游戏中，有些谜题可能很难解开，你需要更多的信息来做出决定。这就是为什么研究人员正在努力开发更好的方法来解释这些选择。

他们希望这些新方法能像游戏中的提示一样，帮助你更好地理解每一个选择背后的原因。这样你就能在游戏中做出更明智的决定，也能更信任这些解释。

术语表

反事实解释 (Counterfactual Explanation)

反事实解释是一种通过最小化输入实例的修改来展示模型预测变化的方法。

在论文中用于分析模型决策的透明性。

稀疏性 (Sparsity)

稀疏性指的是反事实解释中被修改的特征数量。较少的修改通常被认为是更好的解释。

用于评估反事实解释的简洁性。

接近性 (Proximity)

接近性衡量反事实实例与原始输入实例之间的距离。较小的距离表示更接近原始实例。

用于评估反事实解释的合理性。

可信度 (Plausibility)

可信度指的是反事实实例在数据分布上的合理性。

用于评估反事实解释的现实性。

多样性 (Diversity)

多样性衡量反事实解释中不同特征变化的独立性。

用于评估反事实解释的丰富性。

Oracle Score

Oracle Score衡量不同模型对反事实实例的预测一致性。

用于评估反事实解释的模型一致性。

Trust Score

Trust Score衡量反事实实例与其预测类别的接近程度。

用于评估反事实解释的可信度。

Completeness

Completeness衡量反事实解释中被修改特征的重要性。

用于评估反事实解释的完整性。

XGBoost

XGBoost是一种高效的梯度提升决策树算法，常用于分类和回归任务。

在论文中作为基线模型用于分类任务。

UCI机器学习库 (UCI Machine Learning Repository)

UCI机器学习库是一个广泛使用的数据集集合，包含多种机器学习任务的数据集。

在论文中用于选择实验数据集。

开放问题这项研究留下的未解疑问

1 开放问题1：现有的反事实评估指标在不同数据集上的表现不一致，如何开发更具普适性的指标？
2 开放问题2：如何在不增加计算复杂度的情况下，提高反事实解释的用户感知质量？
3 开放问题3：在多分类任务中，如何更好地捕捉用户对反事实解释的偏好？
4 开放问题4：如何在不同领域中验证反事实解释的有效性，尤其是在医疗和金融等关键领域？
5 开放问题5：如何结合认知科学的研究成果，开发更符合人类思维方式的解释方法？
6 开放问题6：现有的用户研究方法是否能够全面捕捉用户对解释的真实感受？
7 开放问题7：如何在反事实解释中平衡信息丰富性与用户可理解性？

应用场景

近期应用

医疗诊断

反事实解释可以帮助医生理解模型的诊断决策，提高诊断的透明度和可信度。

金融决策

在金融领域，反事实解释可以帮助用户理解贷款审批或信用评分的决策过程。

自动驾驶

反事实解释可以用于分析自动驾驶系统的决策，帮助工程师改进系统的安全性和可靠性。

远期愿景

人机交互

未来，反事实解释可以用于改善人机交互，使AI系统更具透明性和可解释性。

教育领域

反事实解释可以用于教育领域，帮助学生更好地理解复杂的概念和问题。

原文摘要

Explainability is widely regarded as essential for trustworthy artificial intelligence systems. However, the metrics commonly used to evaluate counterfactual explanations are algorithmic evaluation metrics that are rarely validated against human judgments of explanation quality. This raises the question of whether such metrics meaningfully reflect user perceptions. We address this question through an empirical study that directly compares algorithmic evaluation metrics with human judgments across three datasets. Participants rated counterfactual explanations along multiple dimensions of perceived quality, which we relate to a comprehensive set of standard counterfactual metrics. We analyze both individual relationships and the extent to which combinations of metrics can predict human assessments. Our results show that correlations between algorithmic metrics and human ratings are generally weak and strongly dataset-dependent. Moreover, increasing the number of metrics used in predictive models does not lead to reliable improvements, indicating structural limitations in how current metrics capture criteria relevant for humans. Overall, our findings suggest that widely used counterfactual evaluation metrics fail to reflect key aspects of explanation quality as perceived by users, underscoring the need for more human-centered approaches to evaluating explainable artificial intelligence.

cs.AI cs.HC

参考文献 (20)

An Empirical Investigation of Users' Assessment of XAI Explanations: Identifying the Sweet Spot of Explanation Complexity and Value

Felix Liedeker, Christoph Düsing, Marcel Nieveler 等

2024 2 引用

Interpretable Counterfactual Explanations Guided by Prototypes

A. V. Looveren, Janis Klaise

2019 453 引用查看解读 →

Predicting Satisfaction of Counterfactual Explanations from Human Ratings of Explanatory Qualities

Marharyta Domnich, Rasmus Moorits Veski, Julius Välja 等

2025 1 引用查看解读 →

Privacy Assessment on Reconstructed Images: Are Existing Evaluation Metrics Faithful to Human Perception?

Xiaoxiao Sun, Nidham Gazagnadou, Vivek Sharma 等

2023 16 引用查看解读 →

Counterfactuals in Explainable Artificial Intelligence (XAI): Evidence from Human Reasoning

R. Byrne

2019 320 引用

Actionable Recourse for Automated Decisions: Examining the Effects of Counterfactual Explanation Type and Presentation on Lay User Understanding

Peter M. VanNostrand, Dennis M. Hofmann, Lei Ma 等

2024 10 引用

Are Explanations Helpful? A Comparative Study of the Effects of Explanations in AI-Assisted Decision-Making

Xinru Wang, Ming Yin

2021 378 引用

Explaining machine learning classifiers through diverse counterfactual explanations

Ramaravind Kommiya Mothilal, Amit Sharma, Chenhao Tan

2019 1268 引用查看解读 →

Intraclass correlations: uses in assessing rater reliability.

P. Shrout, J. Fleiss

1979 23708 引用

Integrating federated learning for improved counterfactual explanations in clinical decision support systems for sepsis therapy

Christoph Düsing, Philipp Cimiano, S. Rehberg 等

2024 13 引用

Discernibility in explanations: Designing more acceptable and meaningful machine learning models for medicine

Haomiao Wang, Julien Aligon, Julien May 等

2025 3 引用

Interrater reliability and agreement of subjective judgments

Howard E. A. Tinsley, D. Weiss

1975 910 引用

To Trust Or Not To Trust A Classifier

Heinrich Jiang, Been Kim, Maya R. Gupta

2018 510 引用查看解读 →

Keep Your Friends Close and Your Counterfactuals Closer: Improved Learning From Closest Rather Than Plausible Counterfactual Explanations in an Abstract Setting

Ulrike Kuhl, André Artelt, Barbara Hammer

2022 29 引用查看解读 →

From Anecdotal Evidence to Quantitative Evaluation Methods: A Systematic Review on Evaluating Explainable AI

Meike Nauta, Jan Trienes, Shreyasi Pathak 等

2022 617 引用查看解读 →

M4: A Unified XAI Benchmark for Faithfulness Evaluation of Feature Attribution Methods across Metrics, Modalities and Models

Xuhong Li, Mengnan Du, Jiamin Chen 等

2023 34 引用

Features of Explainability: How users understand counterfactual and causal explanations for categorical and continuous features in XAI

Greta Warren, Mark T. Keane, R. Byrne

2022 30 引用查看解读 →

The Dynamics of Trust in XAI: Assessing Perceived and Demonstrated Trust Across Interaction Modes and Risk Treatments

Mohsen Abbaspour Onari, Gregor Baer, Chao Zhang 等

2025 1 引用

Alibi Explain: Algorithms for Explaining Machine Learning Models

Janis Klaise, A. V. Looveren, G. Vacanti 等

2021 133 引用

Counterfactual Explanations for Machine Learning: A Review

Sahil Verma, John P. Dickerson, Keegan E. Hines

2020 461 引用

Do Metrics for Counterfactual Explanations Align with User Perception?

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

反事实解释 (Counterfactual Explanation)

稀疏性 (Sparsity)

接近性 (Proximity)

可信度 (Plausibility)

多样性 (Diversity)

Oracle Score

Trust Score

Completeness

XGBoost

UCI机器学习库 (UCI Machine Learning Repository)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

医疗诊断

金融决策

自动驾驶

远期愿景

人机交互

教育领域

原文摘要

参考文献 (20)

相关论文

Can Current Agents Close the Discovery-to-Application Gap? A Case Study in Minecraft

Rethinking Math Reasoning Evaluation: A Robust LLM-as-a-Judge Framework Beyond Symbolic Rigidity

AgentSearchBench: A Benchmark for AI Agent Search in the Wild

A-MAR: Agent-based Multimodal Art Retrieval for Fine-Grained Artwork Understanding

SafetyALFRED: Evaluating Safety-Conscious Planning of Multimodal Large Language Models

Large Language Models Exhibit Normative Conformity

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问