核心发现
方法论
研究采用了问答(QA)模型来识别叙述中的国籍身份标识符。通过分析500,000个由GPT-3.5、GPT-4、Llama 2、Claude 2.0和PaLM 2生成的故事,研究团队评估了这些模型在美国背景下的国籍偏见。研究还引入了一个新的数据集,由GPT4.1-Nano生成的292,500个故事,涵盖195个全球公认国家,以比较全球多数和少数的代表性。
关键结果
- 结果1:在500,000个故事中,只有5.4%的故事提到美国以外的国家或民族身份,其中仅1.8%涉及角色身份。非美国国籍在中立情境下的出现频率是作为食物、语言或旅游目的地的50倍。
- 结果2:在有权力动态的故事中,非美国国籍角色更可能被描绘为弱势角色(98.6%),而非主导角色(1.6%)。
- 结果3:在全球背景下的分析显示,全球多数国家的角色更可能被描绘为需要帮助的角色,而不是主导角色。
研究意义
这项研究揭示了大语言模型在生成叙述时对全球多数民族的潜在偏见和代表性伤害。通过详细分析这些模型如何在不同背景下描绘国籍身份,研究为理解和缓解AI系统中的文化偏见提供了重要的见解。这对于那些依赖AI进行决策的企业和政府应用尤其重要,因为这些偏见可能会影响到政策制定和社会公平。
技术贡献
研究的技术贡献包括开发了一个问答模型,用于从复杂的开放式叙述中提取国籍身份标识符。这一方法克服了以往研究中对模板化或显式身份提示的依赖,能够更准确地评估模型在自然语言生成任务中的偏见。此外,研究还通过比较不同国家背景下的故事生成,揭示了模型在全球多数和少数国家之间的代表性差异。
新颖性
这项研究首次系统性地分析了大语言模型在生成叙述时的国籍偏见,尤其是在全球多数国家的背景下。与以往研究主要关注性别、种族和性取向的偏见不同,本研究扩展了对国籍身份的分析,揭示了新的文化偏见维度。
局限性
- 局限1:研究主要基于英语语言模型,可能未能全面反映其他语言模型的偏见。
- 局限2:由于数据集的限制,研究未能深入分析特定国家或文化背景下的细微差异。
- 局限3:研究依赖于现有的模型和数据集,可能未能捕捉到最新模型的改进。
未来方向
未来研究可以扩展到多语言模型,以评估不同语言和文化背景下的偏见。此外,可以开发新的方法来自动检测和缓解AI生成内容中的文化偏见,特别是在高风险应用中。这将有助于提高AI系统的公平性和包容性。
AI 总览摘要
大语言模型(LLM)在文本生成任务中的应用日益广泛,从日常使用到高风险的企业和政府应用,包括模拟与寻求庇护者的面试。然而,这些技术并非价值中立,它们可能会编码和延续对全球非主导社区的有害偏见。为了更好地评估和减轻这些伤害,需要更多研究来审视LLM如何描绘多样化的个体。
在这项研究中,我们分析了广泛采用的LLM在响应开放式叙述生成提示时如何描绘国籍身份。我们的发现表明,按国籍划分的持续代表性伤害,包括有害的刻板印象、抹杀和对全球多数身份的一维描绘。少数民族身份在权力中立的故事中同时被低估,而在从属角色描绘中被过度代表,这些角色出现的可能性是主导角色的五十倍以上。
当输入提示中出现美国国籍线索(例如“美国人”)时,伤害的程度会加剧。值得注意的是,我们发现这些伤害不能通过谄媚来解释,因为即使将美国国籍线索替换为非美国国籍身份,偏见仍然存在。基于我们的发现,我们呼吁通过以全球多数视角为中心的方法进一步探索LLM中的文化伤害,并挑战不加批判地采用基于美国的LLM进行分类、监视和误导我们星球大多数人的做法。
研究采用了问答(QA)模型来识别叙述中的国籍身份标识符。通过分析500,000个由GPT-3.5、GPT-4、Llama 2、Claude 2.0和PaLM 2生成的故事,研究团队评估了这些模型在美国背景下的国籍偏见。研究还引入了一个新的数据集,由GPT4.1-Nano生成的292,500个故事,涵盖195个全球公认国家,以比较全球多数和少数的代表性。
结果显示,在500,000个故事中,只有5.4%的故事提到美国以外的国家或民族身份,其中仅1.8%涉及角色身份。非美国国籍在中立情境下的出现频率是作为食物、语言或旅游目的地的50倍。在有权力动态的故事中,非美国国籍角色更可能被描绘为弱势角色(98.6%),而非主导角色(1.6%)。
这项研究揭示了大语言模型在生成叙述时对全球多数民族的潜在偏见和代表性伤害。通过详细分析这些模型如何在不同背景下描绘国籍身份,研究为理解和缓解AI系统中的文化偏见提供了重要的见解。这对于那些依赖AI进行决策的企业和政府应用尤其重要,因为这些偏见可能会影响到政策制定和社会公平。
深度解读
原文摘要
Large language models (LLMs) are increasingly used for text generation tasks from everyday use to high-stakes enterprise and government applications, including simulated interviews with asylum seekers. While many works highlight the new potential applications of LLMs, there are risks of LLMs encoding and perpetuating harmful biases about non-dominant communities across the globe. To better evaluate and mitigate such harms, more research examining how LLMs portray diverse individuals is needed. In this work, we study how national origin identities are portrayed by widely-adopted LLMs in response to open-ended narrative generation prompts. Our findings demonstrate the presence of persistent representational harms by national origin, including harmful stereotypes, erasure, and one-dimensional portrayals of Global Majority identities. Minoritized national identities are simultaneously underrepresented in power-neutral stories and overrepresented in subordinated character portrayals, which are over fifty times more likely to appear than dominant portrayals. The degree of harm is amplified when US nationality cues (e.g., ``American'') are present in input prompts. Notably, we find that the harms we identify cannot be explained away via sycophancy, as US-centric biases persist even when replacing US nationality cues with non-US national identities in the prompts. Based on our findings, we call for further exploration of cultural harms in LLMs through methodologies that center Global Majority perspectives and challenge the uncritical adoption of US-based LLMs for the classification, surveillance, and misrepresentation of the majority of our planet.
参考文献 (20)
Globalized anti-blackness: Transnationalizing Western immigration law, policy, and practice
Vilna I. Bashi
Data Colonialism: Rethinking Big Data’s Relation to the Contemporary Subject
N. Couldry, U. Mejías
Counting Carbon: A Survey of Factors Influencing the Emissions of Machine Learning
A. Luccioni, Alex Hernandez-Garcia
The group 77
M. Naraine
The Unpaid Toll: Quantifying the Public Health Impact of AI
Yuelin Han, Zhifeng Wu, Pengfei Li 等
Is It Bad to Work All the Time? Cross-Cultural Evaluation of Social Norm Biases in GPT-4
Z. Liu, Farhan Samir, Mehar Bhatia 等
Echoes of Eugenics: Tracing the Ideological Persistence of Scientific Racism in Scholarly Discourse
Nada Hashmi, Sydney Lodge, Cassidy R. Sugimoto 等
Ethical and social risks of harm from Language Models
Laura Weidinger, John F. J. Mellor, Maribeth Rauh 等
Teaching Parrots to See Red: Self-Audits of Generative Language Models Overlook Sociotechnical Harms
Evan Shieh, T. Monroe-White
"Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in LLM-Generated Reference Letters
Yixin Wan, George Pu, Jiao Sun 等
AI Suggestions Homogenize Writing Toward Western Styles and Diminish Cultural Nuances
Dhruv Agarwal, Mor Naaman, Aditya Vashistha
Ethics for the majority world: AI and the question of violence at scale
Paola Ricaurte
Decolonizing Post-Colonial Studies and Paradigms of Political Economy: Transmodernity, Decolonial Thinking, and Global Coloniality
Ramón Grosfoguel
Sociotechnical Harms of Algorithmic Systems: Scoping a Taxonomy for Harm Reduction
R. Shelby, Shalaleh Rismani, K. Henne 等
More of the Same: Persistent Representational Harms Under Increased Representation
Jennifer Mickel, Maria De-Arteaga, Leqi Liu 等
The Weirdest People in the World
Joseph Henrich
Investigating Cultural Alignment of Large Language Models
Badr AlKhamissi, Muhammad N. ElNokrashy, Mai Alkhamissi 等
How to Hide an Empire: A Short History of the Greater United States
A. Priest
The Psychosocial Impacts of Generative AI Harms
Faye-Marie Vassel, Evan Shieh, Cassidy R. Sugimoto 等
Unintended Impacts of LLM Alignment on Global Representation
Michael Joseph Ryan, William B. Held, Diyi Yang