Human Label Variation as Stable Signal: Learning Annotator-Specific Explanation Behavior via Cross-Annotator Preference Optimization

TL;DR

提出CAPO方法,通过跨标注偏好优化,模型学习到个体标注者的稳定解释行为,显著优于提示和SFT。

cs.CL 🔴 高级 2026-05-28 76 次浏览
Beiduo Chen Pingjun Hong Ziyun Zhang Benjamin Roth Anna Korhonen Barbara Plank
自然语言处理 标注行为 模型模拟 偏好优化 解释行为

核心发现

方法论

本文采用两项句子对任务(自然语言推理和复述判断),分析四名标注者的个体行为稳定性。通过输入内容减弱和标注者层面聚合,揭示标注者的稳定模式。比较提示和监督微调(SFT)基线,提出跨标注偏好优化(CAPO)算法,利用同一输入下不同标注者的偏好差异作为对比信号,训练模型模拟目标标注者的解释行为。评估指标包括决策匹配、参考解释相似度、聚合识别能力和人工验证,验证CAPO在保持个体标注者特征方面优于基线方法。

关键结果

  • 实验结果显示,提示方法在标注者模拟中表现不稳定,准确率下降至40%左右;而SFT显著提升标注者特定行为的捕获能力,准确率达到55%。引入CAPO后,模型在聚合层面识别目标标注者的能力提升至96%以上,显著优于单一实例表现。利用特征KL散度和判别器(Group Classifier)验证,CAPO能有效减少内容偏差,增强个体风格的可识别性。人工验证也确认,CAPO生成的解释更符合目标标注者的思路。
  • 结果还表明,CAPO在保持决策准确率的同时,提升了解释行为的个性化和稳定性,展示了模型在模拟复杂人类标注行为中的潜力。

研究意义

本研究突破了传统仅关注标签分布的标注理解范畴,首次系统性地将标注者个体解释行为作为模型学习目标。此方法不仅丰富了对人类决策过程的理解,也为可解释AI、个性化标注和人机合作提供了新思路。通过学习标注者的稳定偏好,模型能更好地模拟不同人的思考路径,提升自动标注、审查和解释的效率与可信度。这对于大规模标注任务、知识图谱构建以及个性化推荐等场景具有深远影响。

技术贡献

本文提出了跨标注偏好优化(CAPO)算法,结合对比学习和偏好调节,有效捕获标注者的个性化解释行为。相比传统微调(SFT)和提示方法,CAPO利用多标注者的差异作为监督信号,强化模型对目标标注者的行为模拟能力。引入内容减弱策略(如特征残差)降低输入内容干扰,提升个体行为的可识别性。实验中,CAPO在多项指标上超越基线,验证其在行为模拟中的有效性。此外,本文还设计了多维评估体系,包括决策一致性、解释相似度和人工验证,确保模型行为的真实性和可解释性。

新颖性

本研究首次系统性地将标注者的解释行为作为学习目标,提出了基于偏好对比的CAPO算法,区别于以往仅关注标签分布或粗糙人格特征的模型。通过内容减弱和多标注者对比,显著提升了模型对个体风格的捕获能力。这种行为模拟方法在自然语言理解和解释生成领域具有创新意义,为个性化AI和人类行为理解提供了新范式。

局限性

  • 模型在极端或复杂的解释场景中仍可能难以准确模拟个体偏好,尤其是在标注行为高度多样化或模糊的情况下。
  • 训练过程中对多标注者偏好的依赖可能引入偏差,影响模型的泛化能力,特别是在新标注者或未见过的解释风格中。
  • 当前方法对大规模数据和多标注者的依赖较高,计算成本较大,实际应用中需要优化效率和模型压缩策略。

未来方向

未来可探索多模态、多任务场景下的标注者行为模拟,结合图像、语音等多源信息,丰富模型的理解能力。同时,结合主动学习策略,动态调整偏好对比样本,提升模型适应性。还应研究模型在实际标注平台中的应用效果,验证其在真实场景中的可用性和鲁棒性。此外,推动模型在个性化推荐、自动问答和智能审查等领域的落地,拓展其商业价值。

AI 总览摘要

在自然语言处理(NLP)领域,标注行为的多样性一直是理解和提升模型性能的关键难题。传统方法多将标注的差异视作噪声,通过多数投票或标签分布进行处理,忽略了背后丰富的认知偏好和解释逻辑。然而,近年来兴起的解释性标注研究显示,理解标注者的理由和偏好对于构建更具可解释性和个性化的AI系统至关重要。

然而,如何让大规模预训练语言模型(LLMs)模拟个体标注者的解释行为,成为一个新兴且具有挑战性的问题。本文提出了跨标注偏好优化(CAPO)方法,旨在通过对比不同标注者在相同输入下的偏好差异,训练模型学习目标标注者的稳定解释行为。研究采用两项句子对任务——自然语言推理(NLI)和复述判断(Paraphrase Judgement),分析四名标注者的行为模式。

在数据分析中,作者发现单个标注的解释内容受输入内容影响较大,难以直接捕获个体偏好。但通过输入内容的减弱和标注者层面的聚合,模型能够识别出标注者的稳定行为特征。实验比较了提示(prompting)、监督微调(SFT)和提出的CAPO方法,结果显示,提示方法在模拟个体行为方面表现不佳,准确率仅约40%;而SFT显著提升,达到55%以上。引入CAPO后,模型在聚合层面识别目标标注者的能力进一步提高,准确率超过96%,验证了偏好对比在行为模拟中的有效性。

多项指标评估显示,CAPO不仅在决策一致性上优于基线,还在解释相似度和人工验证中表现出更高的个性化和稳定性。这表明,模型成功学习到标注者的独特解释路径,具有潜在的应用价值。通过减少内容干扰和强化偏好信号,CAPO在自动标注、个性化推荐、智能问答等场景中展现出广阔前景。

总之,本文突破了传统标签分布的局限,将标注者的个性化解释行为作为模型学习目标,为理解人类认知多样性提供了新工具,也为未来构建更具解释性和个性化的AI系统奠定了基础。未来研究可结合多模态信息,优化模型效率,并在实际应用中验证其效果,推动人机合作的智能化升级。

深度分析

研究背景

随着自然语言处理技术的发展,标注行为的多样性逐渐被学界重视。早期研究多关注标签分布(如标签概率模型、贝叶斯标签推断),试图通过统计学方法捕获标注者间的差异。代表性工作包括Nie等人在2020年提出的标注分布建模,以及Aroyo和Welty的perspectivist NLP理念,强调 disagreement背后潜藏的合理性。近年来,解释性标注(free-text explanations)逐渐成为研究热点,旨在揭示标注者的思考路径和偏好,为模型提供更丰富的监督信息。相关工作如Jiang和de Marneffe(2022)利用解释增强模型的可解释性,但大多集中于单一标注者或整体行为的平均表现,缺乏对个体差异的深入分析。

核心问题

尽管标注者的解释内容丰富,但单个解释的内容受输入内容影响较大,难以直接反映个体的偏好和风格。现有模型多依赖标签分布或粗糙的人格特征,难以模拟真实的人类解释行为。这限制了模型在个性化、可解释性和多样性方面的应用潜力。核心问题在于如何从多样且内容主导的解释中提取出稳定的个体行为特征,并在大规模模型中有效学习和复现。这不仅关系到模型的行为一致性,也影响到人类理解和信任AI系统的能力。

核心创新

本研究的核心创新在于提出了跨标注偏好优化(CAPO)算法,利用多标注者在相同输入下的偏好差异作为对比信号,训练模型学习目标标注者的解释行为。具体创新点包括:

  • �� 内容减弱策略(如特征残差)降低输入内容干扰,突出个体偏好特征;
  • �� 采用偏好对比(pairwise preference)机制,将不同标注者的响应作为正负样本,强化模型对目标标注者的行为模拟;
  • �� 设计多维评估体系,结合决策一致性、解释相似度和人工验证,确保模型行为的真实性和个性化。这些创新突破了传统微调和提示方法的局限,为行为模拟提供了新思路。

方法详解

  • �� 数据采集:使用两项句子对任务(NLI和复述判断),每项任务包含四名标注者的标签和解释。
  • �� 数据预处理:通过内容减弱(特征残差)和标注者层面聚合,提取稳定的行为特征。
  • �� 基线比较:采用提示(prompting)和监督微调(SFT)作为基础方法。
  • �� 提出CAPO:
  • �� 训练目标:利用多标注者在相同输入下的偏好差异作为对比信号。
  • �� 样本构建:在相同输入下,选择目标标注者的响应作为正样本,其他标注者的响应作为负样本。
  • �� 损失函数:基于偏好对比(如Rafailov等的DPO)优化模型参数。
  • �� 训练流程:从SFT模型初始化,逐步引入偏好对比训练,增强目标标注者行为模拟能力。
  • �� 评估指标:包括决策准确率、解释相似度(ROUGE、BERTScore)、聚合识别能力(Group Classifier)和人工验证。

实验设计

实验采用VariErr(自然语言推理)和R2(复述判断)两个数据集,分别包含300/100/100的训练/验证/测试集,四名标注者的标签和解释。模型比较包括提示(ICL、VP、VP-ICL)、SFT和CAPO。指标涵盖标签准确率、解释相似度(ROUGE-L、BERTScore)、特征KL散度和判别器(Group Classifier)识别能力。通过不同的组大小(m)进行内容聚合,验证目标标注者行为的稳定性。实验还包括人工验证,评估生成解释的合理性和个性化程度。结果显示,CAPO在多项指标上优于基线,特别是在聚合识别和解释个性化方面表现突出。

结果分析

CAPO在目标标注者的行为模拟中表现出色,聚合层面识别准确率达96%以上,比SFT提升显著。特征KL散度分析表明,CAPO能有效减少内容干扰,增强个体偏好信号。人工验证中,82.8%的样本由专家确认CAPO生成的解释更符合目标标注者的思路。模型在保持决策准确率的同时,显著提升了解释的个性化和稳定性,验证了其在模拟复杂人类行为中的潜力。

应用场景

该方法可应用于自动标注系统,提升多样性和解释性,尤其适合需要个性化解释的场景,如医疗问答、法律咨询等。还可用于知识图谱构建,通过模拟不同专家的解释路径,丰富知识表示。未来,结合主动学习和多模态信息,模型有望实现更高效的个性化交互,推动人机合作的智能化升级。

局限与展望

模型在极端或高度模糊的解释场景中仍可能表现不足,尤其在标注行为高度多样化或存在偏差时。此外,训练过程对多标注者数据的依赖较大,计算成本较高,实际部署面临效率挑战。未来需优化模型结构,提升泛化能力和效率,同时加强对新标注者风格的适应性。

通俗解读 非专业人士也能看懂

想象你在一个工厂里工作,每天都要按照不同的工艺流程生产产品。有的人喜欢用快速的方法,有的人则喜欢细致入微。每个工人都有自己的一套做事风格,但工厂希望能理解每个人的偏好,从而让生产更高效、更符合每个人的习惯。这个论文就像是在教机器学习这个工厂的“工人”如何学习每个“工人”的独特做事风格。

具体来说,研究发现每个标注者(就像工厂里的不同工人)在解释问题时,有自己固定的习惯和偏好。比如,有的工人喜欢写长长的解释,有的喜欢用简洁的句子。通过分析大量的标注数据,作者设计了一种方法,让机器学习模型能够模仿每个工人的这些习惯。

他们的方法就像是在工厂里设置了不同的“偏好对比”,让机器学会区分不同工人的风格。这样,模型不仅能给出正确的答案,还能给出符合某个工人风格的解释。实验结果显示,这种方法比传统的提示或微调更能捕捉到每个工人的独特习惯,让机器变得更聪明、更贴近人类的思考方式。

简单解释 像给14岁少年讲一样

想象你在学校里,有不同的同学喜欢用不同的方式回答问题。有的喜欢写长长的解释,有的喜欢简洁明了。老师希望能让机器人也学会这些不同的回答风格,这样机器人回答问题时,就能像不同的同学一样,给出符合他们习惯的答案。

这篇论文就像是在教机器人怎么模仿每个同学的写作风格。科学家们发现,每个人在解释事情时,都有自己的一套习惯,比如喜欢用长句子、喜欢用比喻、或者喜欢用否定句。通过分析很多人的回答,他们设计了一种方法,让机器人可以学习到这些习惯。

他们的方法就像是在给机器人设置了“偏好标签”,让它知道“这个人喜欢长句子”或者“那个人喜欢用比喻”。这样,机器人在回答问题时,就能模仿出不同人的风格了。实验结果表明,这样的机器人回答更像人,更容易让人理解和信任。未来,这种技术可以用在聊天机器人、智能助手等方面,让它们变得更贴心、更懂你!

原文摘要

Free-text explanations extend human label variation (HLV) beyond label disagreement by revealing the reasoning and preferences behind annotators' decisions. We study whether large language models (LLMs) can learn and reproduce such annotator-specific label-explanation behavior. Using two sentence-pair tasks with four annotators each -- natural language inference and paraphrase judgment -- we first analyze whether annotators exhibit stable individual patterns. We find that such patterns are weak at the single-annotation level due to strong input-content effects, but become detectable after input-content reduction and annotator-level aggregation. We then compare prompting and supervised fine-tuning (SFT) baselines and propose cross-annotator preference optimization (CAPO), which contrasts a target annotator's response with other valid but less target-specific annotations for the same input. Experiments show that prompting is limited and unstable, SFT better captures annotator-specific behavior, and CAPO further improves aggregation-aware imitation and judge-based attribution while preserving target-specific reasoning patterns under human validation. Overall, our results show that HLV can be learned as annotator-specific label-explanation behavior, suggesting a path toward scalable explanation-based annotation grounded in annotator histories rather than labels alone.

cs.CL

参考文献 (20)

A survey of modern authorship attribution methods

E. Stamatatos

2009 915 引用 ⭐ 高影响力

Beyond Demographics: Fine-tuning Large Language Models to Predict Individuals' Subjective Text Perceptions

Matthias Orlikowski, Jiaxin Pei, Paul Rottger 等

2025 37 引用 查看解读 →

LeWiDi-2025 at NLPerspectives: The Third Edition of the Learning with Disagreements Shared Task

Elisa Leonardelli, Silvia Casola, Siyao Peng 等

2025 12 引用 查看解读 →

We Need to Consider Disagreement in Evaluation

Valerio Basile, Michael Fell, Tommaso Fornaciari 等

2021 185 引用

Conference on Neural Information Processing Systems

Lu Liu, Tianyi Zhou, Guodong Long 等

2019 210 引用

Out of One, Many: Using Language Models to Simulate Human Samples

Lisa P. Argyle, E. Busby, Nancy Fulda 等

2022 1051 引用 查看解读 →

Ecologically Valid Explanations for Label Variation in NLI

Nan-Jiang Jiang, Chenhao Tan, M. Marneffe

2023 17 引用 查看解读 →

Steering Language Models With Activation Engineering

A. M. Turner, Lisa Thiergart, Gavin Leech 等

2023 534 引用 查看解读 →

Aligning LLM Uncertainty with Human Disagreement in Subjectivity Analysis

Junyu Lu, Deyi Ji, Xuanyi Liu 等

2026 1 引用 查看解读 →

Learning from Disagreement: A Survey

Alexandra Uma, Tommaso Fornaciari, Dirk Hovy 等

2021 296 引用

A Coefficient of Agreement for Nominal Scales

Jacob Cohen

1960 42601 引用

Scikit-learn: Machine Learning in Python

Fabian Pedregosa, G. Varoquaux, Alexandre Gramfort 等

2011 89456 引用 查看解读 →

Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

Nils Reimers, Iryna Gurevych

2019 17956 引用 查看解读 →

Language Models are Few-Shot Learners

Tom B. Brown, Benjamin Mann, Nick Ryder 等

2020 58589 引用 查看解读 →

Marked Personas: Using Natural Language Prompts to Measure Stereotypes in Language Models

Myra Cheng, Esin Durmus, Dan Jurafsky

2023 311 引用 查看解读 →

Dealing with Disagreements: Looking Beyond the Majority Vote in Subjective Annotations

A. Davani, M. D'iaz, Vinodkumar Prabhakaran

2021 459 引用 查看解读 →

Refusal in Language Models Is Mediated by a Single Direction

Andy Arditi, Oscar Obeso, Aaquib Syed 等

2024 704 引用 查看解读 →

Computational methods in authorship attribution

Moshe Koppel, Jonathan Schler, S. Argamon

2009 366 引用

MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers

Krishna Pillutla, Swabha Swayamdipta, Rowan Zellers 等

2021 517 引用 查看解读 →

The CoNLL-2010 Shared Task: Learning to Detect Hedges and their Scope in Natural Language Text

Richárd Farkas, V. Vincze, György Móra 等

2010 323 引用