Rethinking XAI Evaluation: A Human-Centered Audit of Shapley Benchmarks in High-Stakes Settings

TL;DR

通过统一框架评估八种Shapley变体在高风险环境中的人类效用,揭示现有评估指标与人类感知的脱节。

cs.LG 🔴 高级 2026-04-24 20 次浏览
Inês Oliveira e Silva Sérgio Jesus Iker Perez Rita P. Ribeiro Carlos Soares Hugo Ferreira Pedro Bizarro
可解释AI Shapley值 特征归因 人机交互 自动化偏差

核心发现

方法论

本文采用统一的摊销框架,消除算法实现的干扰,公平地比较八种Shapley值变体。研究在四个风险数据集和一个真实的欺诈检测环境中进行,涉及37名专业分析师和3,735个案例审查。通过这种方法,研究揭示了Shapley值变体在定量指标和人类感知之间的根本不一致。

关键结果

  • 结果1:标准定量指标如稀疏性和忠实性与人类感知的清晰度和决策效用脱节。尽管解释未能提高分析师的客观表现,但却显著增加了决策信心,表明在高风险环境中存在自动化偏差的风险。
  • 结果2:通过对八种Shapley变体的比较,发现没有一种变体能够在所有指标上占据优势。固定基线变体在删除AUC和Recall@3上表现出色,但在稀疏性和对比性上表现不佳。
  • 结果3:经验变体表现出较好的平衡性,条件Shapley偏离此模式,产生密集且敏感的归因,反映了特征相关性而非模型行为。

研究意义

这项研究在可解释AI领域具有重要意义,尤其是在高风险决策系统中。通过揭示当前评估指标与人类效用之间的脱节,研究为选择合适的Shapley变体和评估指标提供了基于证据的指导。这不仅有助于提高AI系统的透明度和可解释性,还能减少自动化偏差带来的风险。

技术贡献

技术贡献包括:1) 提出了一个统一的摊销框架,消除了实现干扰,公平比较不同Shapley变体;2) 提供了大规模的实证分析,揭示了定量指标与人类感知之间的根本不一致;3) 为高风险决策系统中Shapley值的选择和评估提供了基于证据的指导。

新颖性

本文首次系统地评估了不同Shapley值变体在高风险环境中的人类效用,揭示了当前评估指标的不足。与以往研究不同,本文通过大规模实证分析,强调了人类感知在评估中的重要性。

局限性

  • 局限1:研究主要集中在金融和欺诈检测领域,结果可能不适用于视觉或语言领域,这些领域的特征语义可能具有不同的动态。
  • 局限2:实验在受控环境中进行,无法捕捉长期效应,如学习、适应或机构决策规范的变化。
  • 局限3:由于计算复杂性,某些Shapley变体在高维数据集上的应用可能受到限制。

未来方向

未来研究可以扩展到其他领域,如视觉和自然语言处理,以验证Shapley值变体在不同应用中的效用。此外,开发新的评估指标,以更好地预测人类感知和决策效用,也是一个重要方向。

AI 总览摘要

在高风险领域,如欺诈检测和信用评估,机器学习模型的预测结果往往需要人类决策者的审核。解释性AI(XAI)方法,如Shapley值,旨在通过将模型预测分解为特征级贡献来提高透明度。然而,Shapley值的多种变体导致了一个碎片化的景观,缺乏实践部署的共识。

本文通过一个统一的摊销框架,消除算法实现的干扰,公平地比较八种Shapley值变体。研究在四个风险数据集和一个真实的欺诈检测环境中进行,涉及37名专业分析师和3,735个案例审查。结果显示,标准定量指标如稀疏性和忠实性与人类感知的清晰度和决策效用脱节。尽管解释未能提高分析师的客观表现,但却显著增加了决策信心,表明在高风险环境中存在自动化偏差的风险。

通过对八种Shapley变体的比较,研究发现没有一种变体能够在所有指标上占据优势。固定基线变体在删除AUC和Recall@3上表现出色,但在稀疏性和对比性上表现不佳。经验变体表现出较好的平衡性,条件Shapley偏离此模式,产生密集且敏感的归因,反映了特征相关性而非模型行为。

这项研究在可解释AI领域具有重要意义,尤其是在高风险决策系统中。通过揭示当前评估指标与人类效用之间的脱节,研究为选择合适的Shapley变体和评估指标提供了基于证据的指导。这不仅有助于提高AI系统的透明度和可解释性,还能减少自动化偏差带来的风险。

然而,研究也存在一些局限。首先,研究主要集中在金融和欺诈检测领域,结果可能不适用于视觉或语言领域,这些领域的特征语义可能具有不同的动态。此外,实验在受控环境中进行,无法捕捉长期效应,如学习、适应或机构决策规范的变化。未来研究可以扩展到其他领域,如视觉和自然语言处理,以验证Shapley值变体在不同应用中的效用。此外,开发新的评估指标,以更好地预测人类感知和决策效用,也是一个重要方向。

深度分析

研究背景

在高风险领域,如欺诈检测、信用评估和医疗保健,机器学习模型的预测结果往往需要人类决策者的审核。在这些环境中,模型输出很少构成最终决策。相反,预测结果在时间、注意力和监管限制下由人类决策者进行审查。因此,解释被视为问责制和监督的不可或缺的一部分,已成为操作性机器学习部署中的核心要求。尽管解释的广泛采用,其在以人为中心的工作流程中的实际价值仍然理解不足,往往是被假设而非经验验证的。Shapley值作为一种基于合作博弈论的局部解释方法,提供了模型预测的特征级贡献的公理分解。然而,由于对特征缺失语义的不同假设,Shapley值框架已分裂为基于不同假设的竞争性形式,如KernelSHAP、TreeSHAP等。这引发了一个关键的评估问题:选择哪种形式对最终用户是否重要,标准评估程序是否预测其影响?

核心问题

Shapley值在可解释AI中占据了重要地位,但其多种变体导致了一个碎片化的景观,缺乏实践部署的共识。尽管理论差异已被充分记录,评估仍然依赖于定量代理,其与人类效用的对齐尚未验证。现代XAI评估依赖于理论分析和定量代理,以及模型的“忠实性”或数据的“真实性”之间的数学区别。然而,关于解释方法如何与以人为中心的基准进行比较的系统证据仍然稀缺。现有评估通常关注孤立的属性,很少在现实操作约束下对这些指标进行压力测试。此外,比较往往受到实现选择的干扰,这掩盖了定义本身的真正语义差异。

核心创新

本文的核心创新在于:1) 提出了一个统一的摊销框架,消除了实现干扰,公平比较不同Shapley变体;2) 提供了大规模的实证分析,揭示了定量指标与人类感知之间的根本不一致;3) 为高风险决策系统中Shapley值的选择和评估提供了基于证据的指导。这些创新不仅有助于提高AI系统的透明度和可解释性,还能减少自动化偏差带来的风险。

方法详解

  • �� 采用统一的摊销框架,消除算法实现的干扰,公平比较八种Shapley值变体。
  • �� 在四个风险数据集和一个真实的欺诈检测环境中进行研究,涉及37名专业分析师和3,735个案例审查。
  • �� 通过这种方法,研究揭示了Shapley值变体在定量指标和人类感知之间的根本不一致。
  • �� 评估Shapley归因的两个互补轴:定量评估和人机交互研究。
  • �� 使用紧凑的指标集捕捉功能属性、跨变体一致性和下游分析师行为。

实验设计

实验设计包括四个风险数据集和一个真实的欺诈检测环境,涉及37名专业分析师和3,735个案例审查。使用的基线包括KernelSHAP和TreeSHAP等流行实现。评估指标包括稀疏性、忠实性、对比性、删除AUC和Recall@3等。实验还包括消融研究,以分析不同Shapley变体的性能差异。

结果分析

实验结果显示,标准定量指标如稀疏性和忠实性与人类感知的清晰度和决策效用脱节。尽管解释未能提高分析师的客观表现,但却显著增加了决策信心,表明在高风险环境中存在自动化偏差的风险。通过对八种Shapley变体的比较,研究发现没有一种变体能够在所有指标上占据优势。固定基线变体在删除AUC和Recall@3上表现出色,但在稀疏性和对比性上表现不佳。经验变体表现出较好的平衡性,条件Shapley偏离此模式,产生密集且敏感的归因,反映了特征相关性而非模型行为。

应用场景

这项研究的应用场景包括金融和欺诈检测领域的高风险决策系统。通过揭示当前评估指标与人类效用之间的脱节,研究为选择合适的Shapley变体和评估指标提供了基于证据的指导。这不仅有助于提高AI系统的透明度和可解释性,还能减少自动化偏差带来的风险。

局限与展望

研究主要集中在金融和欺诈检测领域,结果可能不适用于视觉或语言领域,这些领域的特征语义可能具有不同的动态。此外,实验在受控环境中进行,无法捕捉长期效应,如学习、适应或机构决策规范的变化。未来研究可以扩展到其他领域,如视觉和自然语言处理,以验证Shapley值变体在不同应用中的效用。此外,开发新的评估指标,以更好地预测人类感知和决策效用,也是一个重要方向。

通俗解读 非专业人士也能看懂

想象一下你在厨房里做饭。你有一堆食材,比如胡萝卜、土豆和鸡肉。你想知道每种食材对最终菜肴的味道有多大贡献。Shapley值就像是一个厨师助手,它可以告诉你每种食材在这道菜中的重要性。它会考虑每种食材的组合,告诉你如果没有胡萝卜,味道会有什么不同,或者如果没有土豆,菜会不会变得更好吃。

在高风险的环境中,比如银行的欺诈检测,Shapley值帮助分析师理解AI模型的决策。它就像是一个透明的厨房,分析师可以看到每个特征(比如交易金额、地点)对模型判断的影响。

然而,问题在于,不同的Shapley变体就像不同的厨师,他们对食材的评价可能不同。有的厨师认为胡萝卜很重要,有的则觉得土豆更关键。这就导致了在实际应用中,分析师可能会对模型的解释产生不同的信心。

这项研究就像是一个厨艺比赛,评估不同厨师(Shapley变体)的表现,看看哪种解释更符合人类的直觉和需求。

简单解释 像给14岁少年讲一样

嘿,小伙伴!你知道吗,在银行或者医院这样的地方,AI经常会帮忙做一些重要的决定,比如判断一笔交易是不是欺诈,或者一个病人是不是需要特别的照顾。为了让这些AI的决定更透明,我们需要知道它们是怎么想的。

想象一下,你在玩一个游戏,AI是你的队友,它会告诉你每个敌人的危险程度。Shapley值就像是AI的翻译官,它会告诉你AI为什么觉得某个敌人特别危险。它会考虑所有可能的组合,就像在游戏中考虑每个队友的作用一样。

但是,不同的Shapley值就像不同的翻译官,有的可能会让你觉得更清楚,有的则可能让你更困惑。这项研究就是在比较这些翻译官,看看哪种解释更能帮助你在游戏中做出更好的决策。

所以,下次当你在游戏中做决定时,想想这些AI和Shapley值,它们就像是你的隐形助手,帮助你更好地理解游戏世界!

术语表

Shapley值

Shapley值是一种基于合作博弈论的解释方法,用于将模型预测分解为特征级贡献。

在本文中用于评估不同变体在高风险环境中的效用。

KernelSHAP

KernelSHAP是一种流行的Shapley值实现,使用加权最小二乘回归估计特征贡献。

作为基线之一用于比较不同Shapley变体。

TreeSHAP

TreeSHAP是一种专为决策树模型设计的Shapley值实现,具有高效的计算性能。

用于评估不同Shapley变体的性能。

忠实性

忠实性是指解释方法与模型预测的一致性,即解释能否准确反映模型的决策过程。

作为评估指标之一,用于衡量不同Shapley变体的性能。

稀疏性

稀疏性是指解释中非零特征的数量,较高的稀疏性通常意味着更简单的解释。

用于评估不同Shapley变体的简洁性。

自动化偏差

自动化偏差是指人类过度依赖自动化系统的风险,即使系统的决策不一定准确。

研究揭示了Shapley值解释可能导致的自动化偏差。

摊销框架

摊销框架是一种消除实现干扰的方法,用于公平比较不同算法的性能。

用于消除不同Shapley变体实现的干扰。

对比性

对比性是指解释方法在不同输入下的变化程度,较高的对比性通常意味着更敏感的解释。

用于评估不同Shapley变体的敏感性。

经验变体

经验变体是指基于经验数据分布的Shapley值实现,保留了特征的边际分布。

作为Shapley变体之一用于比较。

条件Shapley

条件Shapley是一种保留经验依赖关系的Shapley值实现,难以在高维设置中估计。

用于评估不同Shapley变体的性能。

开放问题 这项研究留下的未解疑问

  • 1 当前的Shapley值变体在高维数据集上的应用受到计算复杂性的限制。未来研究需要开发更高效的算法,以支持在更大规模数据集上的应用。
  • 2 现有的评估指标,如忠实性和稀疏性,与人类感知的对齐尚未得到充分验证。需要开发新的指标,以更好地预测人类感知和决策效用。
  • 3 不同Shapley变体在视觉和自然语言处理领域的效用尚未得到充分验证。未来研究可以扩展到这些领域,以验证其适用性。
  • 4 自动化偏差的长期影响尚不明确。需要进行长期研究,以评估自动化偏差对决策质量和人类信任的影响。
  • 5 如何在不增加计算复杂性的情况下,提高Shapley值解释的可解释性和透明度,是一个亟待解决的问题。

应用场景

近期应用

金融欺诈检测

Shapley值可以帮助分析师理解模型的欺诈检测决策,提高决策透明度和问责性。

信用评估

在信用评估中,Shapley值可以解释模型对不同申请者的评分,帮助信贷员做出更明智的决策。

医疗诊断

在医疗领域,Shapley值可以解释模型对患者风险的预测,帮助医生做出更准确的诊断决策。

远期愿景

全面透明的AI系统

通过改进Shapley值的解释能力,未来可以实现全面透明的AI系统,增强人类对AI决策的信任。

跨领域的可解释AI

未来,Shapley值及其变体可以扩展到更多领域,如自动驾驶和智能家居,实现更广泛的应用。

原文摘要

Shapley values are a cornerstone of explainable AI, yet their proliferation into competing formulations has created a fragmented landscape with little consensus on practical deployment. While theoretical differences are well-documented, evaluation remains reliant on quantitative proxies whose alignment with human utility is unverified. In this work, we use a unified amortized framework to isolate semantic differences between eight Shapley variants under the low-latency constraints of operational risk workflows. We conduct a large-scale empirical evaluation across four risk datasets and a realistic fraud-detection environment involving professional analysts and 3,735 case reviews. Our results reveal a fundamental misalignment: standard quantitative metrics, such as sparsity and faithfulness, are decoupled from human-perceived clarity and decision utility. Furthermore, while no formulation improved objective analyst performance, explanations consistently increased decision confidence, signaling a critical risk of automation bias in high-stakes settings. These findings suggest that current evaluation proxies are insufficient for predicting downstream human impact, and we provide evidence-based guidance for selecting formulations and metrics in operational decision systems.

cs.LG cs.AI cs.HC

参考文献 (20)

Explaining machine learning classifiers through diverse counterfactual explanations

Ramaravind Kommiya Mothilal, Amit Sharma, Chenhao Tan

2019 1309 引用 查看解读 →

Consistent Individualized Feature Attribution for Tree Ensembles

Scott M. Lundberg, Gabriel Erion-Barner, Su-In Lee

2018 1764 引用 查看解读 →

Stabilizing Estimates of Shapley Values with Control Variates

Jeremy Goldwasser, Giles Hooker

2023 10 引用 查看解读 →

Transparency, auditability, and explainability of machine learning models in credit scoring

Michael Bücker, G. Szepannek, Alicja Gosiewska 等

2020 167 引用 查看解读 →

Beyond TreeSHAP: Efficient Computation of Any-Order Shapley Interactions for Tree Ensembles

Maximilian Muschalik, Fabian Fumagalli, Barbara Hammer 等

2024 34 引用 查看解读 →

How can I choose an explainer?: An Application-grounded Evaluation of Post-hoc Explanations

Sérgio Jesus, Catarina Bel'em, Vladimir Balayan 等

2021 135 引用 查看解读 →

Algorithmic Transparency via Quantitative Input Influence: Theory and Experiments with Learning Systems

Anupam Datta, S. Sen, Yair Zick

2016 774 引用

Fast TreeSHAP: Accelerating SHAP Value Computation for Trees

Jilei Yang

2021 62 引用 查看解读 →

Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead

C. Rudin

2018 8512 引用

Interpretable Machine Learning - A Brief History, State-of-the-Art and Challenges

Christoph Molnar, Giuseppe Casalicchio, B. Bischl

2020 505 引用 查看解读 →

The Explanation Game: Explaining Machine Learning Models Using Shapley Values

Luke Merrick, Ankur Taly

2020 247 引用

Algorithms to estimate Shapley value feature attributions

Hugh Chen, Ian Covert, Scott M. Lundberg 等

2022 410 引用 查看解读 →

Interventionally Consistent Surrogates for Complex Simulation Models

Joel Dyer, Nicholas Bishop, Yorgos Felekis 等

2024 9 引用

Ignore, Trust, or Negotiate: Understanding Clinician Acceptance of AI-Based Treatment Recommendations in Health Care

Venkatesh Sivaraman, L. Bukowski, J. Levin 等

2023 140 引用 查看解读 →

Causal Shapley Values: Exploiting Causal Knowledge to Explain Individual Predictions of Complex Models

T. Heskes, E. Sijben, I. G. Bucur 等

2020 210 引用 查看解读 →

Does the Whole Exceed its Parts? The Effect of AI Explanations on Complementary Team Performance

Gagan Bansal, Tongshuang Sherry Wu, Joyce Zhou 等

2020 855 引用 查看解读 →

Generalized Linear Models

E. Ziegel

2002 18686 引用

Notions of explainability and evaluation approaches for explainable artificial intelligence

Giulia Vilone, Longo Luca

2021 495 引用

Why Tabular Foundation Models Should Be a Research Priority

B. V. Breugel, M. Schaar

2024 110 引用 查看解读 →

The many Shapley values for model explanation

Mukund Sundararajan, A. Najmi

2019 796 引用 查看解读 →