The Collaboration Gap in Human-AI Work

TL;DR

提出了一个理解人机协作脆弱性的框架，分析了基础条件和修复负担。

cs.HC 🟡 进阶级 2026-04-20 31 次浏览

Varad Vishwarupe Marina Jirotka Nigel Shadbolt Ivan Flechais

AI 阅读器 Arxiv 原文下载 PDF

人机协作 LLM 共同基础修复 HCI

核心发现

方法论

本文采用建构主义扎根理论分析，基于16次设计师、开发者和应用AI从业者的访谈，提出了一个框架来分析人机协作中的基础条件和修复负担。通过区分三种互动结构：一次性协助、弱协作和基础协作，研究揭示了协作失败的原因。

关键结果

研究发现，协作失败通常发生在协作的表象超越了互动的基础能力时。具体数据表明，在16次访谈中，参与者普遍认为当前的LLM系统在支持深层次协作方面存在显著不足。
在一次性协助中，用户提供提示，系统给出输出，但共享理解度低，主要适用于低风险任务。
在基础协作中，系统能够帮助显露假设、跟踪上下文，使得协作更加稳定。

研究意义

该研究为理解人机协作的脆弱性提供了新的视角，强调了基础条件和修复负担在协作中的重要性。这一框架不仅能帮助学术界更好地设计和评估人机协作系统，还能为工业界提供指导，改善实际应用中的协作体验。

技术贡献

技术贡献包括提出了一个新的框架来分析人机协作中的基础和修复问题，区别于现有方法的地方在于它强调了互动的基础能力和修复负担的分配，而不是仅仅关注模型的性能。

新颖性

该研究首次系统性地分析了人机协作中的基础条件和修复负担，提供了一个新的框架来理解和改善人机协作的脆弱性。

局限性

研究的局限在于样本量较小，仅限于16次访谈，可能无法全面代表所有LLM应用场景。
框架的适用性需要在更多的实际应用中验证。

未来方向

未来研究可以扩展样本量，验证框架在不同应用场景中的适用性，并探索如何通过设计改进来增强协作的基础能力。

AI 总览摘要

在当今的技术环境中，大型语言模型（LLM）被广泛应用于编程、设计、写作和分析等领域。然而，尽管这些模型被视为潜在的协作者，实际的协作体验往往不尽如人意。用户常常需要诊断误解、重建缺失的假设，并不断修复不对齐的响应。这种现象反映了一个更广泛的问题，即协作AI的脆弱性。

本文提出了一个新的概念框架来理解这种脆弱性，基于对16位设计师、开发者和应用AI从业者的访谈分析。研究表明，稳定的协作不仅依赖于模型的能力，还取决于互动的基础条件。通过区分三种人机协作结构：一次性协助、弱协作和基础协作，研究揭示了协作失败的原因。

在一次性协助中，互动结构接近于请求和响应的模式，用户提供提示，系统给出输出，但共享理解度低。这种结构适用于低风险任务，如摘要或模板生成，但不支持深层次的协作。

弱协作则表现为互动变得迭代，用户需要不断调整提示、纠正输出、添加上下文或请求修订。尽管看似协作，但修复负担主要由人承担，用户必须推断出问题所在，重建缺失的假设并引导系统回到任务上。

在基础协作中，互动开始支持明确的澄清、信号传递和相互修复。系统帮助显露假设、跟踪上下文，使得协作更加稳定。最终的权威可能仍然在于人类，但互动本身变得更加平衡，因为修复不再完全依赖于人类的即兴发挥。

本文的研究为人机协作的设计提供了新的视角，强调了基础条件和修复负担在协作中的重要性。通过重新审视协作缺口为基础和修复问题，这项工作为重新思考人机协作的设计提供了一个概念上的视角。

深度分析

研究背景

随着人工智能技术的快速发展，大型语言模型（LLM）在编程、设计、写作和分析等专业工作流程中得到了广泛应用。这些模型不仅被视为工具，还被视为潜在的协作者。然而，实际的协作体验往往不如预期，用户常常需要诊断误解、重建缺失的假设，并不断修复不对齐的响应。这种现象反映了一个更广泛的问题，即协作AI的脆弱性。研究表明，尽管LLM在孤立环境中表现良好，但在需要协作时，性能可能会下降。这种现象被称为“协作缺口”。

核心问题

核心问题在于人机协作的脆弱性。尽管LLM在许多任务中表现出色，但在协作环境中，用户常常需要诊断误解、重建缺失的假设，并不断修复不对齐的响应。这种协作失败不仅仅是输出是否正确的问题，而是参与者无法可靠地建立共享假设、解释任务状态或有效修复误解的问题。

核心创新

本文的核心创新在于提出了一个新的框架来分析人机协作中的基础条件和修复负担。通过区分三种人机协作结构：一次性协助、弱协作和基础协作，研究揭示了协作失败的原因。该框架强调了互动的基础能力和修复负担的分配，而不是仅仅关注模型的性能。

方法详解

�� 采用建构主义扎根理论分析，基于16次设计师、开发者和应用AI从业者的访谈。
�� 通过迭代编码实践者的描述，识别出协作中常见的结构和问题。
�� 区分三种人机协作结构：一次性协助、弱协作和基础协作。
�� 分析每种结构的基础能力和修复负担分配。

实验设计

实验设计基于16次半结构化访谈，参与者包括设计师、开发者和应用AI从业者。访谈内容涉及LLM在起草、构思、编码、评估和决策支持等工作流程中的使用。参与者描述了与模型协作时的生产力、脆弱性以及当输出偏离任务要求或期望时的反应。

结果分析

研究发现，协作失败通常发生在协作的表象超越了互动的基础能力时。具体数据表明，在16次访谈中，参与者普遍认为当前的LLM系统在支持深层次协作方面存在显著不足。在一次性协助中，用户提供提示，系统给出输出，但共享理解度低，主要适用于低风险任务。在基础协作中，系统能够帮助显露假设、跟踪上下文，使得协作更加稳定。

应用场景

该框架可用于改善LLM在编程、设计、写作和分析等领域的协作体验。通过增强互动的基础能力和修复负担的分配，系统可以更好地支持深层次的协作，减少用户在诊断误解和修复不对齐响应上的负担。

局限与展望

研究的局限在于样本量较小，仅限于16次访谈，可能无法全面代表所有LLM应用场景。框架的适用性需要在更多的实际应用中验证。此外，研究主要关注于设计和开发人员的视角，可能忽略了其他用户群体的需求和挑战。

通俗解读非专业人士也能看懂

想象一下你在一个厨房里做饭。你有一个助手，他是一个大型语言模型。这个助手可以帮你切菜、调味、甚至给你提供新的食谱。然而，有时候他会误解你的指令，比如把盐当成糖，或者在你需要煮的时候去烤。这就像是人机协作中的问题：虽然助手很聪明，但他并不总是明白你的意图。

为了让合作更顺利，你需要不断地告诉助手你的想法，检查他的工作，并在他出错时进行修正。这就是本文中提到的“修复负担”。如果你总是需要花很多时间来纠正助手的错误，合作就会变得很累人。

为了改善这种情况，研究提出了一些方法，比如让助手重复你的指令，或者在他不确定的时候询问你。这就像是在厨房里，你让助手在每一步都确认一下，以确保他理解正确。

通过这些方法，人机协作可以变得更加顺畅，就像在厨房里，你和助手可以更好地配合，做出美味的菜肴。

简单解释像给14岁少年讲一样

嘿，小伙伴们！想象一下你在玩一个超级酷的多人在线游戏。你有一个AI队友，他可以帮你打怪、升级和收集装备。听起来不错吧？但有时候，这个AI队友会搞砸，比如在你需要他攻击的时候，他却在防御，或者在你想要他去左边的时候，他却跑到了右边。

这就像是人机协作中的问题：AI很聪明，但有时候他不明白你的想法。为了让游戏更顺利，你需要不断地告诉AI你的计划，检查他的动作，并在他出错时纠正他。

研究人员发现，如果AI能更好地理解你的指令，或者在不确定的时候询问你，合作会更顺利。就像在游戏中，你让AI在每一步都确认一下，以确保他理解正确。

通过这些方法，游戏体验可以变得更加有趣，就像你和AI队友可以更好地配合，打败所有的敌人！

术语表

大型语言模型 (LLM)

一种通过大量文本数据训练的AI模型，能够生成和理解自然语言。

在本文中，LLM被用作编程、设计等领域的协作者。

人机协作

指人类与AI系统共同完成任务的过程，强调双方的互动和协同。

本文探讨了人机协作中的脆弱性及其原因。

共同基础

指参与者之间共享的信念、假设和目标，是有效沟通和协作的基础。

研究强调了共同基础在稳定协作中的重要性。

修复负担

指在协作过程中，识别和纠正误解的责任分配。

本文分析了不同协作结构中的修复负担分配。

一次性协助

一种简单的请求和响应模式，用户提供提示，系统给出输出。

适用于低风险任务，但不支持深层次协作。

弱协作

一种看似协作的互动，用户需要不断调整提示和纠正输出。

研究指出，弱协作的修复负担主要由人承担。

基础协作

一种支持明确澄清和相互修复的互动，系统帮助显露假设和跟踪上下文。

基础协作使得人机协作更加稳定。

建构主义扎根理论

一种通过数据分析生成理论的方法，强调从实践中抽象出概念。

本文采用该方法分析访谈数据。

信号传递

通过明确的反馈和确认来增强共享理解的过程。

研究建议通过信号传递来提高协作的基础能力。

设计机制

指为增强系统功能和用户体验而设计的具体方法和策略。

本文提出了三种设计机制来改善人机协作。

开放问题这项研究留下的未解疑问

1 当前的LLM系统在支持深层次协作方面存在显著不足，特别是在建立和维护共同基础方面。研究需要探索如何增强系统的基础能力，以减少用户在修复误解上的负担。
2 尽管本文提出了一个新的框架来分析人机协作中的基础和修复问题，但其适用性需要在更多的实际应用中验证。未来研究应扩展样本量，并在不同应用场景中测试框架的有效性。
3 研究主要关注于设计和开发人员的视角，可能忽略了其他用户群体的需求和挑战。未来的工作应包括更多样化的用户群体，以全面理解人机协作的挑战。
4 目前的研究主要依赖于访谈数据，缺乏定量实验的支持。未来研究可以通过实验验证框架的假设，并量化不同协作结构的效果。
5 修复负担的分配在不同的应用场景中可能有所不同，研究需要进一步探索如何在不同场景中优化修复负担的分配。

应用场景

近期应用

编程助手

通过增强LLM的基础能力，开发更智能的编程助手，帮助开发者更有效地调试和优化代码。

设计工具

在设计工具中集成LLM，提供更智能的设计建议和自动化功能，提升设计师的工作效率。

写作助手

开发更智能的写作助手，帮助用户更快速地生成高质量的文本内容，并提供实时的反馈和修正建议。

远期愿景

智能协作平台

创建一个集成多种AI技术的智能协作平台，支持跨领域的团队协作和创新。

个性化学习系统

开发一个基于LLM的个性化学习系统，根据用户的学习风格和需求提供定制化的学习内容和反馈。

原文摘要

LLMs are increasingly presented as collaborators in programming, design, writing, and analysis. Yet the practical experience of working with them often falls short of this promise. In many settings, users must diagnose misunderstandings, reconstruct missing assumptions, and repeatedly repair misaligned responses. This poster introduces a conceptual framework for understanding why such collaboration remains fragile. Drawing on a constructivist grounded theory analysis of 16 interviews with designers, developers, and applied AI practitioners working on LLM-enabled systems, and informed by literature on human-AI collaboration, we argue that stable collaboration depends not only on model capability but on the interaction's grounding conditions. We distinguish three recurrent structures of human-AI work: one-shot assistance, weak collaboration with asymmetric repair, and grounded collaboration. We propose that collaboration breaks down when the appearance of partnership outpaces the grounding capacity of the interaction and contribute a framework for discussing grounding, repair, and interaction structure in LLM-enabled work.

cs.HC cs.AI cs.IR cs.LG

参考文献 (19)

The Construction of Shared Knowledge in Collaborative Problem Solving

J. Roschelle, Stephanie D. Teasley

1995 2244 引用

Interpreting Interpretability: Understanding Data Scientists' Use of Interpretability Tools for Machine Learning

Harmanpreet Kaur, H. Nori, Samuel Jenkins 等

2020 574 引用

Constructing Grounded Theory

Kathy Charmaz

2014 10449 引用

"To LLM, or Not to LLM?": How Designers and Developers Navigate LLMs as Tools or Teammates

Varad V. Vishwarupe, Ivan Flechais, Nigel Shadbolt 等

2026 1 引用查看解读 →

Does the Whole Exceed its Parts? The Effect of AI Explanations on Complementary Team Performance

Gagan Bansal, Tongshuang Sherry Wu, Joyce Zhou 等

2020 851 引用查看解读 →

Human-Centered Artificial Intelligence: Reliable, Safe & Trustworthy

B. Shneiderman

2020 1122 引用查看解读 →

On Clark and Schaefer’s Contribution Model and its applicability to Human-Computer Collaboration

D. Traum

2007 7 引用

Coordination of knowledge in communication: effects of speakers' assumptions about what others know.

Susan R. Fussell, R. Krauss

1992 403 引用

The use of visual information in shared visual spaces: informing the development of virtual co-presence

R. Kraut, Darren Gergle, Susan R. Fussell

2002 251 引用

Using Visual Information for Grounding and Awareness in Collaborative Tasks

Darren Gergle, R. Kraut, Susan R. Fussell

2012 176 引用

Bringing Transparency Design into Practice

Malin Eiband, H. Schneider, Mark Bilandzic 等

2018 230 引用

Guidelines for Human-AI Interaction

Saleema Amershi, Daniel S. Weld, Mihaela Vorvoreanu 等

2019 1977 引用

Grounding Gaps in Language Model Generations

Omar Shaikh, Kristina Gligori'c, Ashna Khetan 等

2023 54 引用查看解读 →

Questioning the AI: Informing Design Practices for Explainable AI User Experiences

Q. Liao, D. Gruen, Sarah Miller

2020 905 引用查看解读 →

Grounding in communication

H. Clark, S. Brennan

1991 4758 引用

A "speech acts" approach to grounding in conversation

D. Traum, James F. Allen

1992 82 引用

Referring as a Collaborative Process

Philip R. Cohen, J. Morgan, M. Pollack

2003 1082 引用

On Using Language

C. K. Grant

1956 5243 引用

The Collaboration Gap

Tim R. Davidson, Adam Fourney, Saleema Amershi 等

2025 5 引用查看解读 →

The Collaboration Gap in Human-AI Work

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

大型语言模型 (LLM)

人机协作

共同基础

修复负担

一次性协助

弱协作

基础协作

建构主义扎根理论

信号传递

设计机制

开放问题 这项研究留下的未解疑问

应用场景

近期应用

编程助手

设计工具

写作助手

远期愿景

智能协作平台

个性化学习系统

原文摘要

参考文献 (19)

相关论文

Point & Grasp: Flexible Selection of Out-of-Reach Objects Through Probabilistic Cue Integration

Auditing Preferences for Brands and Cultures in LLMs

Modeling Trial-and-Error Navigation With a Sequential Decision Model of Information Scent

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问