The Algorithmic Caricature: Auditing LLM-Generated Political Discourse Across Crisis Events

TL;DR

通过计算社会科学框架,审计LLM生成的政治话语在九个危机事件中的表现,发现其情感更负面且结构更一致。

cs.CL 🔴 高级 2026-05-13 71 次浏览
Gunjan Sidahmed Benabderrahmane Talal Rahwan
大语言模型 政治话语 危机事件 计算社会科学 文本生成审计

核心发现

方法论

本文采用计算社会科学(CSS)框架,构建了一个包含1,789,406个帖子的配对语料库,涵盖九个政治危机事件。通过比较社交平台上观察到的话语与相同背景下生成的合成话语,评估情感强度、结构规律性、词汇-意识形态框架和跨事件依赖性四个维度的差异。使用平均差距和分散证据来评估人口失真。

关键结果

  • 结果1:合成话语在情感上更负面,平均情感得分为-0.215,而观察到的话语为+0.018。合成话语的情感分布更集中,标准差为0.458,而观察到的话语为0.522。
  • 结果2:在结构上,合成话语的平均字数为23.08,标准差为11.29,而观察到的话语平均字数为32.16,标准差为55.93,显示出更高的结构一致性。
  • 结果3:在词汇-意识形态框架上,合成话语更为抽象和形式化,与观察到的话语相比,缺乏具体的、事件特定的词汇标记。

研究意义

这项研究揭示了大语言模型生成的政治话语在社会危机事件中的局限性,尤其是在情感多样性和结构复杂性方面。通过引入“漫画差距”这一简单的事件级别度量,研究为评估合成话语的社会现实主义提供了新的视角。这不仅补充了传统的文本检测方法,还为未来的生成式AI系统在社会科学中的应用提供了理论基础。

技术贡献

本文的技术贡献在于提出了一种新的框架,用于评估合成话语是否再现了观察到的在线公众的集体行为特征。通过将话语群体而非单个文本作为分析单元,研究连接了生成式AI评估与集体行为、政治沟通、危机响应和在线公众测量等核心CSS问题。

新颖性

本研究首次从人口层面而非句子层面审计合成政治话语的社会现实主义。与以往侧重于局部文本特征的检测方法不同,本文强调了合成话语在情感、结构和词汇上的整体失真。

局限性

  • 局限1:合成话语在快速变化和去中心化的危机事件中表现出更大的失真,这可能是因为模型在处理非正式和异质性高的话语时存在局限。
  • 局限2:研究仅限于九个特定的危机事件,可能无法全面代表所有类型的政治话语。
  • 局限3:合成话语的生成依赖于特定的提示和参数设置,可能影响结果的普遍性。

未来方向

未来研究可以扩展到更多类型的事件和更广泛的社交平台,以验证合成话语在不同社会背景下的表现。此外,研究可以探索如何改进生成式模型以更好地再现观察到的情感多样性和结构复杂性。

AI 总览摘要

在当今的数字时代,社交媒体已成为政治表达和动员的重要平台。然而,随着大语言模型(LLM)的快速发展,合成话语在危机事件中的大规模生成引发了新的担忧。现有的AI文本检测方法主要关注局部语言特征,如困惑度和词汇突发性,但这些信号在生成系统改进后可能变得不可靠。

本文提出了一种新的计算社会科学(CSS)框架,旨在从人口层面而非句子层面审计合成政治话语的社会现实主义。研究构建了一个包含1,789,406个帖子的配对语料库,涵盖九个政治危机事件,包括COVID-19大流行、2020年和2024年美国大选、BLM抗议等。通过比较社交平台上观察到的话语与相同背景下生成的合成话语,研究评估了情感强度、结构规律性、词汇-意识形态框架和跨事件依赖性四个维度的差异。

研究发现,合成话语在情感上更负面,结构上更为一致,词汇上更为抽象,与观察到的话语相比,缺乏具体的、事件特定的词汇标记。这些差异在快速变化和去中心化的危机事件中更为明显,而在正式或制度化的事件中则较小。研究引入了“漫画差距”这一简单的事件级别度量,以总结这些差异。

这一发现表明,合成政治话语的主要局限性不在于语法或流畅性,而在于减少了人口现实主义。通过将话语群体而非单个文本作为分析单元,研究连接了生成式AI评估与集体行为、政治沟通、危机响应和在线公众测量等核心CSS问题。

尽管本文为评估合成话语的社会现实主义提供了新的视角,但也存在一些局限性。研究仅限于九个特定的危机事件,可能无法全面代表所有类型的政治话语。此外,合成话语的生成依赖于特定的提示和参数设置,可能影响结果的普遍性。未来研究可以扩展到更多类型的事件和更广泛的社交平台,以验证合成话语在不同社会背景下的表现。

深度分析

研究背景

近年来,社交媒体平台已成为政治表达、动员和争论的核心基础设施。然而,这些平台也成为操纵的关键场所,包括协调的影响操作、虚假信息活动和自动化放大。随着大语言模型(LLM)的快速扩散,人们对生成大量流利、政治色彩浓厚的合成话语的可能性产生了新的担忧。这种合成话语可以在规模上模仿草根表达,可能对社会产生深远影响。现有的AI生成文本检测方法主要集中在局部文本特征上,如词汇可预测性、突发性、重复性或困惑度不规则性。这些方法虽然有用,但随着模型的改进、改写和风格适应性增强,它们变得越来越脆弱。在政治沟通等语言嘈杂、情感化和事件依赖性强的环境中,狭隘地关注句子级别的线索可能会忽略更广泛的人口层面失真。

核心问题

本文的核心问题是:在危机事件中,生成的合成话语与观察到的在线人口行为有何不同?传统的AI文本检测方法主要关注局部语言特征,可能无法捕捉到合成话语在情感、结构和词汇上的整体失真。本文提出了一种新的计算社会科学(CSS)框架,旨在从人口层面审计合成话语的社会现实主义。通过将话语群体而非单个文本作为分析单元,研究连接了生成式AI评估与集体行为、政治沟通、危机响应和在线公众测量等核心CSS问题。

核心创新

本文的核心创新在于:1) 提出了一种新的CSS框架,用于评估合成话语是否再现了观察到的在线公众的集体行为特征;2) 构建了一个包含1,789,406个帖子的配对语料库,涵盖九个政治危机事件;3) 引入了“漫画差距”这一简单的事件级别度量,以总结合成话语与观察到的话语之间的差异。与以往侧重于局部文本特征的检测方法不同,本文强调了合成话语在情感、结构和词汇上的整体失真。

方法详解

本文的方法论包括以下步骤:


  • �� 数据集构建:收集了九个政治危机事件的观察到的话语和合成话语,形成一个包含1,789,406个帖子的配对语料库。

  • �� 维度评估:比较了情感强度、结构规律性、词汇-意识形态框架和跨事件依赖性四个维度的差异。

  • �� 差异度量:使用平均差距和分散证据来评估人口失真,并引入“漫画差距”这一简单的事件级别度量。

  • �� 统计分析:对情感、结构和词汇的差异进行统计分析,使用VADER情感分析和TF-IDF词汇分析。

实验设计

实验设计包括以下几个方面:


  • �� 数据集:构建了一个包含1,789,406个帖子的配对语料库,涵盖九个政治危机事件。

  • �� 基线:使用社交平台上观察到的话语作为基线,与生成的合成话语进行比较。

  • �� 评估指标:评估情感强度、结构规律性、词汇-意识形态框架和跨事件依赖性四个维度的差异。

  • �� 超参数:在生成合成话语时,使用特定的提示和参数设置,以确保生成的文本与事件背景一致。

结果分析

结果分析显示:


  • �� 合成话语在情感上更负面,平均情感得分为-0.215,而观察到的话语为+0.018。

  • �� 在结构上,合成话语的平均字数为23.08,标准差为11.29,而观察到的话语平均字数为32.16,标准差为55.93,显示出更高的结构一致性。

  • �� 在词汇-意识形态框架上,合成话语更为抽象和形式化,与观察到的话语相比,缺乏具体的、事件特定的词汇标记。

应用场景

本文的研究结果可以应用于以下场景:


  • �� 政治沟通分析:通过评估合成话语的社会现实主义,帮助识别和理解政治沟通中的潜在操纵和影响。

  • �� 社交媒体监控:为社交媒体平台提供一种新的工具,用于识别和过滤潜在的合成话语。

  • �� 生成式AI系统优化:为未来的生成式AI系统在社会科学中的应用提供理论基础,帮助改进模型以更好地再现观察到的情感多样性和结构复杂性。

局限与展望

本文的局限性包括:


  • �� 研究仅限于九个特定的危机事件,可能无法全面代表所有类型的政治话语。

  • �� 合成话语的生成依赖于特定的提示和参数设置,可能影响结果的普遍性。

  • �� 在快速变化和去中心化的危机事件中,合成话语表现出更大的失真,这可能是因为模型在处理非正式和异质性高的话语时存在局限。

通俗解读 非专业人士也能看懂

想象一下你在一个大型的社交聚会上,大家都在热烈地讨论最近发生的一些重大事件。每个人都有自己的观点和情感,有的人激动,有的人冷静,有的人则在思考如何解决问题。这就像我们在社交媒体上看到的那样,各种各样的声音交织在一起,形成了一幅复杂的社会图景。

现在,假设有一个机器人,它可以模仿人类的说话方式,参与到这些讨论中。这个机器人非常聪明,它可以生成看似流利的对话,但它的情感表现和结构却不像真正的人类那样多样化。它可能总是用同样的方式表达情感,或者在某些事件中表现得过于负面。

这就是本文研究的核心:在危机事件中,合成话语与观察到的真实话语有何不同?通过比较合成话语和真实话语在情感、结构和词汇上的差异,研究揭示了合成话语在社会现实主义方面的局限性。

就像在聚会上,我们不仅关心每个人说了什么,还关心他们如何说,以及这些话语如何反映他们的真实情感和背景。通过这种方式,我们可以更好地理解合成话语在社会中的角色和影响。

简单解释 像给14岁少年讲一样

嘿,小伙伴们!你们有没有想过,网上那些政治讨论,有些可能不是人类写的,而是机器人生成的?这听起来有点像科幻小说,对吧?

其实,这就是科学家们在研究的一个问题。他们想知道,这些机器人生成的文字,跟我们人类写的有什么不同。比如说,在一些重大事件中,机器人生成的文字是不是总是很负面,或者用词很正式?

为了研究这个问题,科学家们收集了很多网上的讨论,包括人类写的和机器人生成的。他们发现,机器人生成的文字虽然看起来很流利,但在情感和结构上跟人类的差别很大。

所以,下一次你在网上看到一篇文章,不妨想一想:这真的是人写的吗?还是一个聪明的机器人在背后操控呢?这可是个有趣的思考题哦!

术语表

大语言模型 (Large Language Model)

大语言模型是一种基于深度学习的人工智能模型,能够生成自然语言文本。它通过学习大量的文本数据,能够理解和生成人类语言。

在本文中,大语言模型用于生成合成政治话语。

计算社会科学 (Computational Social Science)

计算社会科学是利用计算方法和工具研究社会现象的跨学科领域。它结合了社会科学和计算机科学的方法。

本文采用计算社会科学框架来审计合成话语的社会现实主义。

情感分析 (Sentiment Analysis)

情感分析是一种自然语言处理技术,用于识别和提取文本中的情感信息。它通常用于判断文本的情感极性(正面、负面或中性)。

本文使用VADER情感分析工具来评估合成话语的情感强度。

词汇-意识形态框架 (Lexical-Ideological Framing)

词汇-意识形态框架指的是文本中使用的词汇和表达方式如何反映和传达特定的意识形态和观点。

本文比较了合成话语和观察到的话语在词汇-意识形态框架上的差异。

漫画差距 (Caricature Gap)

漫画差距是本文引入的一个简单的事件级别度量,用于总结合成话语与观察到的话语之间的差异。

漫画差距用于评估合成话语在社会现实主义方面的局限性。

VADER

VADER是一种用于社交媒体文本的情感分析工具,能够识别文本的情感极性和强度。

本文使用VADER来评估合成话语的情感强度。

TF-IDF

TF-IDF是一种用于文本挖掘的统计方法,用于评估一个词在文档中的重要性。它结合了词频和逆文档频率。

本文使用TF-IDF来分析合成话语和观察到的话语的词汇差异。

社交媒体 (Social Media)

社交媒体是指通过互联网平台进行社交互动和信息分享的工具和应用。

本文研究了社交媒体上合成话语与观察到的话语的差异。

危机事件 (Crisis Event)

危机事件是指对社会产生重大影响的突发事件,如自然灾害、政治动荡等。

本文研究了九个政治危机事件中的合成话语表现。

合成话语 (Synthetic Discourse)

合成话语是指由人工智能生成的文本,用于模拟人类的语言表达。

本文比较了合成话语与观察到的话语在多个维度上的差异。

开放问题 这项研究留下的未解疑问

  • 1 开放问题1:合成话语在不同文化背景下的表现如何?现有研究主要集中在特定的政治危机事件,尚未全面探讨不同文化背景下的合成话语表现。
  • 2 开放问题2:如何改进生成式模型以更好地再现观察到的情感多样性和结构复杂性?现有模型在处理非正式和异质性高的话语时存在局限。
  • 3 开放问题3:合成话语在长期的社会影响是什么?虽然本文揭示了合成话语的局限性,但其长期的社会影响尚未得到充分研究。
  • 4 开放问题4:如何在生成合成话语时更好地控制其意识形态偏见?现有模型可能继承了训练数据中的意识形态偏见。
  • 5 开放问题5:合成话语在不同类型的社交平台上的表现有何不同?本文主要研究了Twitter、Telegram和Reddit等平台,尚未探讨其他平台的表现。
  • 6 开放问题6:合成话语在多语言环境中的表现如何?现有研究主要集中在英语文本,尚未全面探讨多语言环境中的合成话语表现。
  • 7 开放问题7:如何在生成合成话语时更好地控制其情感强度?现有模型在情感表达上可能过于集中或负面。

应用场景

近期应用

政治沟通分析

通过评估合成话语的社会现实主义,帮助识别和理解政治沟通中的潜在操纵和影响。

社交媒体监控

为社交媒体平台提供一种新的工具,用于识别和过滤潜在的合成话语。

生成式AI系统优化

为未来的生成式AI系统在社会科学中的应用提供理论基础,帮助改进模型以更好地再现观察到的情感多样性和结构复杂性。

远期愿景

多文化背景下的合成话语研究

探索合成话语在不同文化背景下的表现,帮助改进模型的跨文化适应性。

多语言环境中的合成话语研究

研究合成话语在多语言环境中的表现,推动生成式AI系统的多语言应用。

原文摘要

Large Language Models (LLMs) can generate fluent political text at scale, raising concerns about synthetic discourse during crises and social conflict. Existing AI-text detection often focuses on sentence-level cues such as perplexity, burstiness, or token irregularities, but these signals may weaken as generative systems improve. We instead adopt a Computational Social Science perspective and ask whether synthetic political discourse behaves like an observed online population. We construct a paired corpus of 1,789,406 posts across nine crisis events: COVID-19, the Jan. 6 Capitol attack, the 2020 and 2024 U.S. elections, Dobbs/Roe v. Wade, the 2020 BLM protests, U.S. midterms, the Utah shooting, and the U.S.-Iran war. For each event, we compare observed discourse from social platforms with synthetic discourse generated for the same context. We evaluate four dimensions: emotional intensity, structural regularity, lexical-ideological framing, and cross-event dependency, using mean gaps and dispersion evidence. Across events, synthetic discourse is fluent but population-level unrealistic. It is generally more negative and less dispersed in sentiment, structurally more regular, and lexically more abstract than observed discourse. Observed discourse instead shows broader emotional variation, longer-tailed structural distributions, and more context-specific, colloquial lexical markers. These differences are event-dependent: larger for fast-moving, decentralized crises and smaller for formal or institutionally mediated events. We summarize them with a simple event-level measure, the Caricature Gap. Our findings suggest that the main limitation of synthetic political discourse is not grammar or fluency, but reduced population realism. Population-level auditing complements traditional text-detection and provides a CSS framework for evaluating the social realism of generated discourse.

cs.CL cs.AI cs.CY