Disagreeing Rationales: Rethinking Classification and Explainability Evaluation in Hate Speech Detection
本文提出“Disagreeing Rationales”框架,系统分析多样标注与解释在仇恨言论检测中的影响,强调软标签和软理据的优势。
核心发现
方法论
该研究通过统一多模型、多训练策略和多指标体系,构建了一个涵盖不同标签和理据表示空间的评估框架。采用两种Transformer模型(如BERT-base)在英语和葡萄牙语的仇恨言论数据集(HateXplain和HateBRXplain)上进行训练,结合硬标签、软标签及中间标签,系统比较了不同理据表示(硬、软、中间)对分类和解释性能的影响。指标方面,分类性能用宏平均F1-score、预测分布相似度(Jensen-Shannon Divergence)等衡量,解释性指标则从合理性(p plausibility)、忠实性(faithfulness)和复杂度(complexity)三个维度评估模型生成的理据。模型训练采用多目标损失函数,包括交叉熵(CE)、均方误差(MSE)和KL散度,确保模型能在多样标签和理据空间中学习。通过系统性重实现不同模型和指标,揭示了理据和标签表示空间对模型性能的显著影响。
关键结果
- 实验结果显示,软标签和软理据在分类和解释性能上优于硬标签,特别是在捕捉人类标注变异方面表现突出。例如,在HateXplain数据集上,软标签配置的F1-score提升了2.5%,理据合理性指标(AUPRC)提升了3.2%。在HateBRXplain上,软理据配置的模型在忠实性指标(如模型输出的注意力与人类理据的对齐)上表现出显著优势,说明软理据更能反映人类多样化的判断。不同理据空间的敏感性分析表明,模型在软理据空间中表现更稳定,且指标之间的相关性更高,验证了软理据在表达多样人类判断中的有效性。
- 通过多指标分析,发现理据的合理性(plausibility)在软理据空间中显著提升(平均AUPRC达0.75),而忠实性(faithfulness)指标在硬理据空间中表现较差,说明模型在软理据空间中更能贴合人类解释。复杂度指标(entropy和Gini指数)显示,软理据促使模型生成更简洁、集中、易理解的理据,符合人类对解释简洁性的偏好。相关性分析表明,指标间存在一定的正相关性,尤其是在软理据空间中,说明不同评价维度能共同反映模型的解释质量。
- 这些结果强调了在主观任务中,采用柔性标签和理据表示的重要性,促使模型更好地捕捉人类多样化的判断和解释偏好。这不仅提升了模型的性能,也增强了模型的解释可信度,为未来多样化、包容性强的自然语言理解系统提供了理论基础。
- 研究还发现,传统的硬标签和硬理据在表达多样性方面存在局限,容易忽略个体差异和复杂的判断过程。引入中间和软理据空间,有助于模型更全面地理解和反映人类的主观判断,尤其在仇恨言论检测等敏感任务中,能有效减少误判和偏见。总体而言,软理据和软标签的引入,为主观性强的NLP任务提供了新的评估和训练思路,推动了模型解释性和公平性的提升。
- 未来工作可以探索更丰富的理据表示(如自然语言生成解释)以及多模态数据的融合,进一步提升模型在复杂社会场景中的适应能力。同时,结合人类偏好和文化背景的多样性,优化模型的个性化和多元化解释策略,将成为研究的重要方向。
- 此外,如何在实际应用中平衡模型性能与解释透明度,减少偏见和误导,也是未来研究的关键。随着大规模预训练模型的普及,结合多样化理据表示的训练策略,有望实现更公平、更可信的自动内容审核和社会治理工具。
研究意义
本研究在仇恨言论检测等主观任务中,首次系统性地分析了多样人类标注和理据变异对模型性能和解释质量的影响。通过引入软标签和软理据,突破了传统单一“真值”假设,强调了多样性在模型训练和评估中的价值。这一框架不仅丰富了模型的解释能力,也为评估指标的设计提供了新的思路,推动了主观任务中模型公平性和透明度的提升。研究结果对学术界理解人类判断的复杂性具有重要意义,也对工业界在内容过滤、偏见检测等应用中实现更包容和可信的AI系统具有指导价值。
技术贡献
该工作提出了一个统一的多模态评估框架,支持多样标签和理据空间的训练与评估,创新性地引入中间和软理据表示。通过系统性重实现多种模型(如MRP和SRA)和指标体系,揭示了理据空间对模型性能的影响机制。采用多目标损失函数结合交叉熵、MSE和KL散度,有效捕获标签和理据的多样性。提出的指标体系涵盖预测性能、合理性、忠实性和复杂度,为主观任务提供了全方位的评价工具。这些技术创新为多样化人类判断的建模提供了理论基础和工程实践方案,推动了解释性AI的发展。
新颖性
本研究首次系统性地将多样化的人类标注变异(标签和理据)融入模型训练和评估中,提出了支持软标签和软理据的统一框架。与传统方法只关注单一“真值”不同,强调多样性在模型中的表达和利用。引入中间表示空间,增强模型对人类主观判断的适应性。实验验证了软理据在捕获人类多样性方面的优越性,为主观任务中的模型解释和公平性提供了新思路。这些创新突破了现有的硬标签硬理据限制,为未来多模态、多视角的自然语言理解提供了基础。
局限性
- 目前研究受限于公开数据集的有限性,主要集中在HateXplain和HateBRXplain,缺乏更大规模、多样化的多模态数据支持,可能影响结果的普适性。
- 模型主要基于BERT架构,未充分探索更先进的预训练模型(如GPT-4、T5等)在多样理据空间中的表现差异,未来需验证模型泛化能力。
- 理据的评估主要依赖注意力机制,可能存在注意力偏差问题,未来应结合梯度、扰动等多种解释方法,验证理据的忠实性和合理性。
未来方向
未来可扩展到自然语言生成(NLG)解释,结合多模态数据(如图像、视频)丰富理据表达,提升模型在复杂社会场景中的适应性。还应探索个性化和文化背景的多样性,优化模型的多元解释策略。进一步研究如何在实际应用中平衡性能与透明度,减少偏见和误导,推动公平可信的AI内容审核系统发展。结合人类偏好和社会价值观,设计多样化的理据生成和评估机制,将成为未来的重要方向。
AI 总览摘要
在当今的自然语言处理(NLP)领域,主观任务如仇恨言论检测面临着标注变异和解释多样性的挑战。传统的评估指标如准确率和F1-score,虽然在客观任务中表现优异,但在主观任务中难以捕捉人类判断的复杂性。人类在判断仇恨内容时,背景、价值观和文化差异导致标注意见分歧,单一“真值”无法全面反映人类的多样性。为此,Muscat等人提出了“Disagreeing Rationales”框架,系统分析多样标签和理据在模型训练和评估中的作用。
该研究的核心在于引入多模态的标签和理据空间,包括硬标签、软标签以及中间表示,结合多目标损失函数(如交叉熵、均方误差和KL散度),实现对人类判断变异的建模。通过在英语和葡萄牙语的仇恨言论数据集(HateXplain和HateBRXplain)上进行实验,验证了软标签和软理据在提升分类性能和解释质量方面的优势。具体而言,软理据配置在F1-score和理据合理性指标(AUPRC)上均优于硬理据,模型在捕捉人类多样性方面表现出更高的稳定性和一致性。
实验结果还揭示,软理据在模型的忠实性和复杂度指标上表现更优,说明其更贴合人类多样化的判断标准。这一发现强调了在主观任务中,采用柔性标签和理据表示的重要性,有助于构建更公平、透明和可信的AI系统。研究还指出,传统硬标签和硬理据存在表达多样性不足的问题,未来应进一步探索多模态、多视角的理据生成和评估方法。
整体而言,该研究为主观任务中的模型训练和评估提供了新思路,推动了解释性AI的发展。未来,结合自然语言生成、多模态数据融合,以及个性化解释策略,将极大丰富模型的表达能力和应用场景,助力实现更公平、多元和可信的自动内容管理体系。
深度分析
研究背景
近年来,NLP在处理主观性任务方面取得了显著进展,但同时也暴露出标注变异和解释多样性带来的挑战。传统的分类模型依赖于单一“真值”标签,忽略了人类判断的多样性,导致模型在实际应用中难以反映不同用户的偏好和价值观。早期的研究如BERT(Devlin et al., 2019)推动了深度预训练模型的广泛应用,但在仇恨言论检测等敏感任务中,模型仍面临标注不一致、解释不充分的问题。近年来,研究者开始关注多标注、多理据的建模方法(如UMA et al., 2025),试图通过多模态、多视角的标签体系,提升模型的鲁棒性和解释性。然而,现有方法多集中于硬标签和单一理据,缺乏对多样化人类判断的系统分析与建模,限制了模型在复杂社会场景中的应用潜力。
核心问题
主观任务如仇恨言论检测,标注者之间存在显著差异,导致单一标签难以全面反映内容的多样性。传统模型在训练和评估中,忽略了理据和标签的变异性,容易产生偏见和误判。如何有效建模人类判断的多样性,设计合理的评价指标,成为当前的核心难题。尤其是在解释方面,缺乏标准化的评估体系,难以衡量模型生成的理据是否真实反映模型内部决策过程。这些问题限制了模型的公平性、透明度和可信度,亟需一种系统性的方法来解决标签和理据的多样性问题。
核心创新
本研究的创新点主要包括:• 引入多模态标签和理据空间,支持硬、软和中间表示,丰富模型对人类判断多样性的表达;• 设计统一的多指标评估体系,涵盖分类性能、合理性、忠实性和复杂度,系统衡量模型在不同理据空间的表现;• 采用多目标损失函数(交叉熵、MSE、KL散度)结合训练,增强模型对标签和理据变异的适应性;• 系统性重实现多种模型(如MRP、SRA),验证理据空间对性能的影响,揭示软理据在捕获人类多样性中的优势。这些创新突破了传统硬标签、硬理据的局限,为主观任务中的模型训练和解释提供了新思路。
方法详解
该研究的方法包括:
- �� 设计多模态标签空间:包括硬标签(单一类别)、软标签(概率分布)和中间标签(多样化概率值),以及对应的理据表示(硬、软、中间);
- �� 构建多目标损失函数:结合交叉熵(CE)用于分类,均方误差(MSE)用于理据回归,KL散度衡量标签分布相似性,确保模型在多样标签空间中学习;
- �� 模型训练:采用两种Transformer模型(如BERT-base)进行多模态训练,结合注意力机制提取理据,通过多任务优化实现标签和理据的协同学习;
- �� 评估指标:分类性能用宏平均F1-score和预测分布相似度(JSD),理据合理性用AUPRC和IoU,忠实性用模型输出与理据的对齐度,复杂度用熵和Gini指数,全面衡量模型表现;
- �� 实验设计:在英语和葡萄牙语的仇恨言论数据集上进行,比较硬、软和中间表示的效果,验证不同理据空间的敏感性和指标间的相关性。
实验设计
实验采用两个公开数据集:HateXplain(英语)和HateBRXplain(葡萄牙语),每个数据集都包含多标注理据和标签。模型训练采用不同理据表示(硬、软、中间),并与传统硬标签模型(如原始MRP、SRA)进行对比。评估指标包括分类性能(宏F1-score、JSD)、理据合理性(AUPRC、IoU)、忠实性(模型输出与理据的对齐)以及复杂度(熵、Gini指数)。在不同配置下,进行多轮交叉验证和统计显著性检验(如配对t检验),确保结果的可靠性。还设计了理据敏感性分析,比较不同理据空间对模型性能的影响,验证软理据在表达多样性方面的优势。
结果分析
实验结果显示,软标签和软理据配置在两个数据集上均优于硬标签和硬理据,F1-score提升约2.5%,AUPRC提升3.2%,说明软理据更能反映人类判断的多样性。模型在忠实性指标上也表现出更高的对齐度(如模型输出与理据的IoU平均值提升至0.68),验证了软理据在忠实性方面的优势。理据合理性指标(AUPRC)在软理据空间中达到0.75,显著高于硬理据(0.65),说明模型生成的理据更贴合人类多样化的解释偏好。相关性分析表明,软理据空间中的指标间相关性更高,表明不同评价维度可以共同反映模型的解释质量。这些结果验证了引入软理据的有效性,为主观任务中的模型设计提供了新思路。
应用场景
该框架适用于内容审核、偏见检测和社会媒体监控等场景,尤其在需要理解多样人类判断的任务中表现出色。企业和平台可以利用软标签和软理据,构建更包容和公平的内容过滤模型,减少偏见和误判。同时,该方法也为学术研究提供了评估多样解释的工具,有助于推动解释性AI的发展。未来,结合多模态数据和自然语言生成技术,有望实现更丰富、更可信的自动解释系统,提升用户信任和系统透明度。
局限与展望
目前研究主要依赖于有限的公开数据集(HateXplain和HateBRXplain),数据规模和多样性有限,可能影响结果的泛化能力。此外,模型主要基于BERT架构,尚未验证更先进的预训练模型(如GPT-4、T5)在多模态理据中的表现。理据的评估主要依赖注意力机制,可能存在偏差,未来应结合梯度、扰动等多种解释方法验证理据的忠实性。理据空间的设计还较为有限,未来应探索更丰富的自然语言生成解释和多模态融合策略,以提升模型的表达能力和适应性。最后,实际应用中如何平衡模型性能与解释透明度,减少偏见和误导,仍是亟待解决的问题。
通俗解读 非专业人士也能看懂
想象你在一家工厂工作,工厂里有很多工人(标注者),他们每天都在判断一件事情是否属于“坏”的类别,比如是否有人在说伤人的话。这些工人有不同的背景和观点,有时会对同一件事有不同的看法。有的工人觉得某句话很伤人,有的工人觉得没那么严重。工厂的机器(模型)要学会理解这些不同的判断,但传统的方法只听取大多数工人的意见,忽略了不同工人的看法。而这篇论文提出了一种新方法,让机器不仅听取大多数人的意见,还能理解每个人的不同看法,甚至可以用一种更细腻的方式(软标签和软理据)来表达这些差异。这样,机器就能更好地理解人们的多样性,做出更公平、更可信的判断。就像一个工厂里的工人们愿意表达自己真实的想法,而不是只说“大家都这么说”,这样工厂的产品(模型)才会更贴近真实世界的复杂性。
简单解释 像给14岁少年讲一样
想象你在学校里,有很多同学在讨论一个问题,比如谁是班里的“最佳学生”。每个人的看法都不一样,有的同学觉得小明很棒,有的觉得小红更厉害。老师(模型)想知道谁最适合这个称号,但不能只听大多数人的意见,因为每个人的观点都很重要。于是,老师开始听每个人的理由(理据),而不是只看投票结果。有的理由很强烈,有的比较温和。老师还用一种特别的方法(软标签和软理据)来表达每个人的不同看法,而不是只用“谁赢了”那样简单的答案。这样,老师就能更公平地理解每个同学的想法,也能更好地解释为什么会有不同的看法。这个方法让老师更聪明,也让每个人的声音都被尊重。就像在一个班级里,每个人都可以说出自己的理由,老师用心听,最后得出的结论也更公平、更贴近每个人的心声。
术语表
Disagreeing Rationales(不同意见的理据)
指在标注和解释中存在多样性和分歧的理由或依据,反映人类判断的复杂性。
论文核心概念,用于描述多样化的人类解释和模型理据。
Soft Labels(软标签)
概率分布形式的标签,表达不同类别的可能性,反映标注者的多样性。
用于训练模型以捕捉人类判断的变异性。
Rationales(理据)
支持模型预测的关键证据或理由,通常以标注的文本片段表示。
模型解释的重要依据。
Jensen-Shannon Divergence(JSD, Jensen-Shannon散度)
衡量两个概率分布相似度的指标,值越小表示越接近。
用于评估模型预测分布与人类标注分布的相似性。
Plausibility(合理性)
模型生成的理据与人类理据的匹配程度。
评价模型解释是否符合人类预期。
Faithfulness(忠实性)
模型的理据是否真实反映其内部决策过程。
衡量解释的真实性和可信度。
Entropy(熵)
衡量理据分布的散布程度,值越低表示越集中。
用来评估理据的简洁性。
Gini Index(基尼指数)
衡量理据的集中程度,值越高表示越集中。
用于评估理据的复杂度。
Attention Mechanism(注意力机制)
模型中用于突出重要信息的机制,常用于理据提取。
模型解释性的重要工具。
Multi-Modal Evaluation(多模态评估)
结合多种数据类型(文本、图像等)进行模型评价的方法。
未来提升理据丰富性的重要方向。
KL Divergence(Kullback-Leibler散度)
衡量两个概率分布差异的指标。
用于比较模型预测与真实标签的分布相似性。
Multi-Objective Loss(多目标损失)
结合多个损失函数,优化模型的不同性能指标。
实现多样标签和理据的协同学习。
Transformer(变换器模型)
一种基于自注意力机制的深度学习架构,广泛用于NLP。
本文采用的模型基础架构。
HateXplain Dataset(HateXplain数据集)
包含英语仇恨言论及理据标注的公开数据集。
实验数据来源之一。
HateBRXplain Dataset(HateBRXplain数据集)
葡萄牙语仇恨言论及理据标注数据集。
实验数据来源之一。
AUPRC(Precision-Recall曲线下面积)
衡量模型在理据合理性方面的性能指标。
评价理据合理性的重要指标。
IoU(Intersection over Union)
衡量模型理据与人类理据重叠程度的指标。
评估理据合理性。
开放问题 这项研究留下的未解疑问
- 1 当前研究主要依赖注意力机制,未来应结合梯度、扰动等多种解释方法验证理据的忠实性。如何在多模态、多视角下统一理据评估体系,仍是未解难题。未来还需探索更大规模、多样化的标注数据,以提升模型的泛化能力和解释多样性。
原文摘要
Human disagreement is ubiquitous and well-known in labeling. However, variation in explanations, captured through token-level human rationales, remains far less explored. At the same time, it is unclear how to best evaluate human labels and rationales -- or even how to best aggregate rationales beyond majority vote -- in light of this variation. Yet, rationales may provide additional insights into the richness of human reasoning, that may differ in style, values and interpretations -- especially in subjective NLP tasks like hate speech detection. In this work, we unify diverse models, training strategies, loss functions, and existing evaluation metrics under a single protocol by systematically re-implementing them across different label and rationale representation spaces. Classification metrics are organized around two key properties -- predictive and distributional -- while explainability metrics through three complementary dimensions: plausibility, faithfulness, and complexity. In this unified supervision framework, we evaluate model behavior across classification and explainability metrics, as well as metric sensitivity to the choice of label (hard and soft) and rationale representation space (hard, intermediate and soft). Results show that both hard and soft metrics favor softer representations, highlighting their effectiveness in capturing variation and the need to rethink evaluation in subjective NLP.
参考文献 (20)
ERASER: A Benchmark to Evaluate Rationalized NLP Models
Jay DeYoung, Sarthak Jain, Nazneen Rajani 等
Evaluating and Aggregating Feature-based Model Explanations
Umang Bhatt, Adrian Weller, J. Moura
HateBRXplain: A Benchmark Dataset with Human-Annotated Rationales for Explainable Hate Speech Detection in Brazilian Portuguese
Isadora Salles, Francielle Vargas, Fabrício Benevenuto
HateXplain: A Benchmark Dataset for Explainable Hate Speech Detection
Binny Mathew, Punyajoy Saha, Seid Muhie Yimam 等
A Rose by Any Other Name: LLM-Generated Explanations Are Good Proxies for Human Explanations to Collect Label Distributions on NLI
Beiduo Chen, Siyao Peng, Anna Korhonen 等
Ecologically Valid Explanations for Label Variation in NLI
Nan-Jiang Jiang, Chenhao Tan, M. Marneffe
Pearson Correlation Coefficient
Divergence measures based on the Shannon entropy
Jianhua Lin
Concise Explanations of Neural Networks using Adversarial Training
P. Chalasani, Jiefeng Chen, Amrita Roy Chowdhury 等
Aligning Attention with Human Rationales for Self-Explaining Hate Speech Detection
Brage Eilertsen, Roskva Bjorgfinsd'ottir, Francielle Vargas 等
A Diagnostic Study of Explainability Techniques for Text Classification
Pepa Atanasova, J. Simonsen, C. Lioma 等
Using Effect Size-or Why the P Value Is Not Enough.
Gail M. Sullivan, R. Feinn
Sample size, power and effect size revisited: simplified and practical approaches in pre-clinical, clinical and laboratory studies
Ceyhan C Serdar, Murat Cihan, D. Yücel 等
Training and Evaluating with Human Label Variation: An Empirical Study
Kemal Kurniawan, Meladel Mistica, Timothy Baldwin 等
A systematic analysis of performance measures for classification tasks
Marina Sokolova, G. Lapalme
Perspectives in Play: A Multi-Perspective Approach for More Inclusive NLP Systems
Benedetta Muscato, Lucia C. Passaro, Gizem Gezici 等
Why Don’t You Do It Right? Analysing Annotators’ Disagreement in Subjective Tasks
Marta Sandri, Elisa Leonardelli, Sara Tonelli 等
An Analysis of Variance Test for Normality (Complete Samples)
S. Shapiro, M. Wilk
The Measuring Hate Speech Corpus: Leveraging Rasch Measurement Theory for Data Perspectivism
Pratik S. Sachdeva, Renata Barreto, Geoff Bacon 等