The signal is the ceiling: Measurement limits of LLM-predicted experience ratings from open-ended survey text

TL;DR

通过GPT模型预测开放式调查文本的体验评分,提示优化提升2个百分点。

cs.CL 🔴 高级 2026-04-22 31 次浏览
Andrew Hong Jason Potteiger Luis E. Zapata
LLM 自然语言处理 预测评分 文本注释 提示工程

核心发现

方法论

本文研究了提示设计和模型选择对GPT模型预测开放式调查文本体验评分的影响。使用了四种配置:原始基线提示和中度定制版本,结合三种GPT模型(4.1,4.1-mini,5.2)。通过对约10,000份来自五个MLB球队的赛后调查进行测试,评估了提示定制和模型选择对预测准确性的影响。

关键结果

  • 结果1:在GPT 4.1上,提示定制提高了约2个百分点的±1范围内一致性,从67%提高到69%。
  • 结果2:模型替换导致性能下降:GPT 5.2回到基线水平,而GPT 4.1-mini则下降了六个百分点。
  • 结果3:输入文本的语言特征对准确性的影响比提示或模型选择大一个数量级。

研究意义

这项研究揭示了在使用大型语言模型(LLM)进行开放式文本预测时,提示设计和模型选择的相对重要性。研究表明,虽然提示定制可以在一定程度上改善模型的预测性能,但输入文本的语言特征对最终结果的影响更大。这一发现对自然语言处理领域的研究和应用具有重要意义,尤其是在需要从非结构化文本中提取定量信息的场景中。

技术贡献

本文的技术贡献在于揭示了提示设计在纠正模型读取文本偏差方面的特定作用,以及模型选择在这方面的不可靠性。通过系统地分析和比较不同提示和模型配置的性能,研究提供了对提示工程在LLM预测任务中作用的深入理解。

新颖性

本研究首次系统地分析了提示设计和模型选择对LLM预测开放式文本评分的影响,特别是在体育赛事后调查的背景下。这种对比分析在现有文献中尚属首次。

局限性

  • 局限1:模型在处理包含负面操作细节的文本时表现不佳,±1范围内一致性下降到42-44%。
  • 局限2:提示定制的改进主要集中在表面情感与用户评分不一致的文本上,未能普遍提升所有文本类型的预测准确性。
  • 局限3:研究未能完全消除由于文本中缺失信息导致的预测误差。

未来方向

未来的研究可以进一步探索如何通过改进提示设计和模型选择来提高LLM在不同文本类型上的预测准确性。此外,研究可以扩展到其他领域的开放式文本预测任务,以验证这些发现的普适性。

AI 总览摘要

在现代数据驱动的世界中,理解用户体验的复杂性对于企业和研究人员来说至关重要。传统的调查方法通常依赖于封闭式问题,这限制了对用户真实感受的全面理解。本文探讨了使用大型语言模型(LLM)从开放式调查文本中预测用户体验评分的潜力。

研究基于先前的工作,发现未优化的GPT 4.1提示可以在67%的情况下预测用户报告的体验评分,误差在一个点以内。本文进一步测试了提示设计和模型选择对这一性能的相对影响。通过对来自五个MLB球队的约10,000份赛后调查进行分析,研究比较了四种配置:原始基线提示和中度定制版本,结合三种GPT模型(4.1,4.1-mini,5.2)。

结果表明,提示定制在GPT 4.1上提高了约2个百分点的±1范围内一致性,从67%提高到69%。然而,模型替换导致性能下降:GPT 5.2回到基线水平,而GPT 4.1-mini则下降了六个百分点。研究发现,输入文本的语言特征对准确性的影响比提示或模型选择大一个数量级。

本文的技术贡献在于揭示了提示设计在纠正模型读取文本偏差方面的特定作用,以及模型选择在这方面的不可靠性。通过系统地分析和比较不同提示和模型配置的性能,研究提供了对提示工程在LLM预测任务中作用的深入理解。

尽管提示定制可以在一定程度上改善模型的预测性能,但输入文本的语言特征对最终结果的影响更大。这一发现对自然语言处理领域的研究和应用具有重要意义,尤其是在需要从非结构化文本中提取定量信息的场景中。未来的研究可以进一步探索如何通过改进提示设计和模型选择来提高LLM在不同文本类型上的预测准确性。

深度分析

研究背景

在自然语言处理领域,使用大型语言模型(LLM)进行文本预测和注释已经成为一种重要的方法。近年来,随着模型能力的提升,LLM在各种任务中的表现越来越好。然而,如何有效地从开放式文本中提取定量信息仍然是一个挑战。传统的文本分析方法通常依赖于封闭式问题,这限制了对用户真实感受的全面理解。为了克服这一限制,研究人员开始探索使用LLM从开放式文本中预测用户体验评分的潜力。

核心问题

核心问题在于如何从开放式调查文本中准确预测用户的体验评分。由于文本的非结构化特性和语言的多样性,模型在处理不同文本类型时的表现可能会有很大差异。此外,模型在读取文本时可能存在偏差,这需要通过提示设计进行纠正。研究的目标是评估提示设计和模型选择对预测准确性的影响,并找出提高模型性能的方法。

核心创新

本文的核心创新在于系统地分析了提示设计和模型选择对LLM预测开放式文本评分的影响。研究首次在体育赛事后调查的背景下进行这种对比分析,揭示了提示设计在纠正模型读取文本偏差方面的特定作用。通过对不同提示和模型配置的性能进行系统分析,研究提供了对提示工程在LLM预测任务中作用的深入理解。

方法详解

  • �� 使用四种配置:原始基线提示和中度定制版本,结合三种GPT模型(4.1,4.1-mini,5.2)。

  • �� 对约10,000份来自五个MLB球队的赛后调查进行测试。

  • �� 评估提示定制和模型选择对预测准确性的影响。

  • �� 使用多种指标评估模型性能,包括精确匹配率、±1范围内一致性、平均绝对误差和方向性偏差。

实验设计

实验设计包括对来自五个MLB球队的约10,000份赛后调查进行分析。使用的基线提示和定制提示分别在GPT 4.1、GPT 4.1-mini和GPT 5.2上运行。通过对比不同提示和模型配置的性能,评估提示设计和模型选择对预测准确性的影响。实验使用多种指标评估模型性能,包括精确匹配率、±1范围内一致性、平均绝对误差和方向性偏差。

结果分析

实验结果表明,提示定制在GPT 4.1上提高了约2个百分点的±1范围内一致性,从67%提高到69%。然而,模型替换导致性能下降:GPT 5.2回到基线水平,而GPT 4.1-mini则下降了六个百分点。研究发现,输入文本的语言特征对准确性的影响比提示或模型选择大一个数量级。

应用场景

本文的研究结果可以应用于需要从非结构化文本中提取定量信息的场景,如客户反馈分析、市场调查和用户体验研究等。通过改进提示设计和模型选择,可以提高LLM在不同文本类型上的预测准确性,从而为企业和研究人员提供更准确的用户体验洞察。

局限与展望

尽管提示定制可以在一定程度上改善模型的预测性能,但输入文本的语言特征对最终结果的影响更大。此外,模型在处理包含负面操作细节的文本时表现不佳,±1范围内一致性下降到42-44%。未来的研究可以进一步探索如何通过改进提示设计和模型选择来提高LLM在不同文本类型上的预测准确性。

通俗解读 非专业人士也能看懂

想象你在看一场棒球比赛,赛后你被问到对比赛的整体体验评分。你可能会说比赛很精彩,但也提到小吃摊排队时间太长。现在,研究人员想用一种聪明的计算机程序来预测你的评分,而不需要直接问你。这个程序就像一个非常聪明的助手,它会阅读你写的关于比赛的文字,然后猜测你会给出什么样的评分。

这个助手使用了一种叫做大型语言模型(LLM)的技术。它就像一个超级智能的阅读器,能理解你写的每一个字,并试图从中找出你对比赛的总体感觉。研究人员发现,通过给这个助手一些特别的指示,比如“不要因为小问题而给出低分”,可以让它的预测更准确。

然而,这个助手有时也会犯错,尤其是当你提到一些负面细节时。研究人员发现,助手在处理这些负面信息时,往往会低估你的评分。这就像是助手听到你抱怨排队时间长,就认为你对比赛的整体体验不满意。

为了让这个助手更聪明,研究人员正在努力改进它的“理解能力”,希望它能更好地理解你的文字,并给出更准确的评分预测。

简单解释 像给14岁少年讲一样

嘿,小伙伴们!想象一下,你刚刚看完一场超棒的棒球比赛,赛后你被问到对比赛的整体体验评分。你可能会说比赛很精彩,但也提到小吃摊排队时间太长。现在,有个超级聪明的计算机程序想要猜测你的评分,而不需要直接问你。这个程序就像一个超级智能的助手,它会阅读你写的关于比赛的文字,然后猜测你会给出什么样的评分。

这个助手使用了一种叫做大型语言模型(LLM)的技术。它就像一个超级智能的阅读器,能理解你写的每一个字,并试图从中找出你对比赛的总体感觉。研究人员发现,通过给这个助手一些特别的指示,比如“不要因为小问题而给出低分”,可以让它的预测更准确。

不过,这个助手有时候也会犯错,尤其是当你提到一些负面细节时。研究人员发现,助手在处理这些负面信息时,往往会低估你的评分。这就像是助手听到你抱怨排队时间长,就认为你对比赛的整体体验不满意。

为了让这个助手更聪明,研究人员正在努力改进它的“理解能力”,希望它能更好地理解你的文字,并给出更准确的评分预测。

术语表

大型语言模型 (LLM)

大型语言模型是一种使用深度学习技术训练的模型,能够理解和生成自然语言文本。它们通常用于各种自然语言处理任务,如文本生成、翻译和情感分析。

在本文中,LLM用于从开放式调查文本中预测用户体验评分。

提示工程

提示工程是指设计和优化输入提示,以提高大型语言模型在特定任务中的性能。通过调整提示的内容和结构,可以影响模型的输出质量。

本文研究了提示设计对模型预测准确性的影响。

GPT 4.1

GPT 4.1是一种大型语言模型版本,具有强大的自然语言处理能力。它能够理解复杂的文本输入,并生成相关的输出。

在本文中,GPT 4.1用于测试提示设计对预测准确性的影响。

±1范围内一致性

±1范围内一致性是指模型预测的评分与实际评分相差不超过一个点的比例。这个指标用于评估模型预测的准确性。

本文使用±1范围内一致性来比较不同提示和模型配置的性能。

平均绝对误差 (MAE)

平均绝对误差是指模型预测值与实际值之间差异的平均值。它用于量化模型预测的误差大小。

本文使用MAE来评估模型预测的精确度。

方向性偏差

方向性偏差是指模型预测值系统性地高于或低于实际值的趋势。负方向性偏差表示模型倾向于低估实际评分。

本文分析了不同配置下的方向性偏差。

文本注释

文本注释是指为文本数据添加结构化标签或信息,以便于分析和处理。

在本文中,文本注释用于从开放式调查文本中提取用户体验评分。

模型选择

模型选择是指在多个候选模型中选择最适合特定任务的模型。选择的标准可能包括性能、计算成本和适用性。

本文研究了模型选择对预测准确性的影响。

定制提示

定制提示是指根据特定任务需求设计的输入提示,以提高模型的预测性能。

本文测试了定制提示对模型预测准确性的影响。

基线提示

基线提示是指未经过优化或定制的标准输入提示,用于评估模型的基本性能。

本文使用基线提示作为对比基准。

开放问题 这项研究留下的未解疑问

  • 1 如何进一步提高模型在处理负面细节文本时的预测准确性?目前的研究发现,模型在处理包含负面操作细节的文本时表现不佳,±1范围内一致性下降到42-44%。未来的研究可以探索改进提示设计和模型选择,以提高模型在这些文本类型上的预测性能。
  • 2 在其他领域的开放式文本预测任务中,这些研究发现是否具有普适性?本文的研究集中在体育赛事后调查的背景下,未来的研究可以扩展到其他领域,以验证这些发现的普适性。
  • 3 如何有效地结合提示设计和模型选择,以最大化LLM的预测性能?目前的研究表明,提示设计和模型选择对预测准确性的影响不同,未来的研究可以探索如何有效地结合这两者。
  • 4 如何减少模型在预测评分时的方向性偏差?本文发现,所有配置的模型都存在系统性低估评分的趋势,未来的研究可以探索减少这种偏差的方法。
  • 5 在多语言环境中,提示设计和模型选择对预测准确性的影响如何?本文的研究集中在单一语言环境中,未来的研究可以探索在多语言环境中的应用。

应用场景

近期应用

客户反馈分析

企业可以使用改进的LLM技术来分析客户反馈,从开放式文本中提取定量信息,以更好地了解客户体验和满意度。

市场调查

市场研究人员可以利用LLM从开放式调查文本中预测用户体验评分,从而获得更准确的市场洞察。

用户体验研究

研究人员可以使用LLM技术从用户生成的内容中提取体验评分,以评估产品或服务的用户体验。

远期愿景

自动化满意度调查

未来,LLM技术可以用于自动化满意度调查,从开放式文本中提取评分,减少对封闭式问题的依赖。

多语言文本分析

随着LLM技术的发展,未来可以在多语言环境中应用这些技术,从不同语言的文本中提取一致的体验评分。

原文摘要

An earlier paper (Hong, Potteiger, and Zapata 2026) established that an unoptimized GPT 4.1 prompt predicts fan-reported experience ratings within one point 67% of the time from open-ended survey text. This paper tests the relative impact of prompt design and model selection on that performance. We compared four configurations on approximately 10,000 post-game surveys from five MLB teams: the original baseline prompt and a moderately customized version, crossed with three GPT models (4.1, 4.1-mini, 5.2). Prompt customization added roughly two percentage points of within +/-1 agreement on GPT 4.1 (from 67% to 69%). Both model swaps from that best configuration degraded performance: GPT 5.2 returned to the baseline, and GPT 4.1-mini fell six percentage points below it. Both levers combined were dwarfed by the input itself: across capable configurations, accuracy varied more than an order of magnitude more by the linguistic character of the text than by the choice of prompt or model. The ceiling has two parts. One is a bias in how the model reads text, which prompt design can correct. The other is a difference between what fans write about and what they actually decide, which no engineering can close because the missing information is not in the text. Prompt customization moved the first part; model selection moved neither reliably. The result is not that "prompt engineering helps a little" but that prompt engineering helps in a specific and predictable way, on the part of the ceiling it can reach.

cs.CL

参考文献 (18)

Self-reports: How the questions shape the answers.

N. Schwarz

1999 2797 引用 ⭐ 高影响力

LLM Predictive Scoring and Validation: Inferring Experience Ratings from Unstructured Text

Jason Potteiger, Andrew Hong, Ito Zapata

2026 1 引用 ⭐ 高影响力 查看解读 →

LLM Essay Scoring Under Holistic and Analytic Rubrics: Prompt Effects and Bias

Filip J. Kucia, Anirban Chakraborty, Anna Wr'oblewska

2026 1 引用 ⭐ 高影响力 查看解读 →

Back to Bentham? Explorations of experience utility

P. Wakker, D. Kahneman, R. Sarin

1997 2415 引用 ⭐ 高影响力

Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting

Miles Turpin, Julian Michael, Ethan Perez 等

2023 1007 引用 查看解读 →

GPT as a Measurement Tool

Hemanth Asirvatham, Elliott Mokski, A. Shleifer

2026 1 引用

ChatGPT outperforms crowd workers for text-annotation tasks

F. Gilardi, Meysam Alizadeh, M. Kubli

2023 1414 引用 查看解读 →

Mood, misattribution, and judgments of well-being: Informative and directive functions of affective states.

N. Schwarz, G. Clore

1983 5112 引用

The use of LLMs to annotate data in management research: Foundational guidelines and warnings

Natalie A. Carlson, Vanessa C. Burbano

2025 13 引用

Large Language Models: An Applied Econometric Framework

Jens O. Ludwig, Sendhil Mullainathan, Ashesh Rambachan

2024 40 引用 查看解读 →

GPT is an effective tool for multilingual psychological text analysis

Steve Rathje, Dan-Mircea Mirea, Ilia Sucholutsky 等

2024 312 引用

Validating the use of large language models for psychological text classification

Hannah L. Bunt, Alex Goddard, T. Reader 等

2025 8 引用

Bad Is Stronger Than Good

P. Harms

2022 1334 引用

Large Language Models Outperform Expert Coders and Supervised Classifiers at Annotating Political Social Media Messages

Petter Törnberg

2024 74 引用

Measuring Scalar Constructs in Social Science with LLMs

Hauke Licht, Rupak Sarkar, Patrick Y. Wu 等

2025 7 引用 查看解读 →

When More Pain Is Preferred to Less: Adding a Better End

D. Kahneman, B. Fredrickson, Charles A. Schreiber 等

1993 1466 引用

Prompt Stability Scoring for Text Annotation with Large Language Models

C. Barrie, Elli Palaiologou, Petter Törnberg

2024 17 引用 查看解读 →

Using Imperfect Surrogates for Downstream Inference: Design-based Supervised Learning for Social Science Applications of Large Language Models

Naoki Egami, Musashi Jacobs-Harukawa, Brandon M Stewart 等

2023 44 引用 查看解读 →