Auditing Preferences for Brands and Cultures in LLMs

TL;DR

ChoiceEval框架揭示LLM在品牌和文化偏好中的地理偏见，尤其是美国实体。

cs.HC 🔴 高级 2026-03-19 57 次浏览

Jasmine Rienecker Katarina Mpofu Naman Goel Siddhartha Datta Jun Zhao Oscar Danielsson Fredrik Thorsen

LLM 偏好审计品牌偏见文化偏见地理偏见

核心发现

方法论

ChoiceEval是一个用于在现实使用条件下审计大型语言模型（LLM）品牌和文化偏好的可重复框架。该框架解决了两个核心技术挑战：（i）生成现实的、个性化的评估查询；（ii）将自由形式的输出转换为可比较的选择集和定量偏好指标。ChoiceEval通过将用户分段为心理图谱（如预算意识、健康关注、便利性），并从中导出反映真实世界建议和决策行为的多样化提示来实现这一点。LLM的响应被转换为标准化的top-k选择集，从而量化偏好和地理偏见。

关键结果

结果1：ChoiceEval应用于Gemini、GPT和DeepSeek，覆盖10个主题和超过2000个问题，揭示了美国开发的模型Gemini和GPT对美国实体表现出明显的偏好，而中国开发的DeepSeek则表现出更平衡但仍可检测的地理偏好。
结果2：这些偏好模式在用户个性中持续存在，表明是系统性的而非偶然的效应。
结果3：在酒店连锁、电动车、跑鞋等多个领域，LLM推荐明显倾向于美国实体，尽管存在全球竞争对手。

研究意义

ChoiceEval的意义在于提供了一个可扩展的审计管道，使研究人员、平台和监管机构能够将模型行为与现实世界的经济结果联系起来。这一框架揭示了LLM在品牌和文化偏好中的地理偏见，特别是在美国实体的过度代表性方面。这种偏见可能会影响市场公平性、竞争性和信息曝光的多样性，尤其是在AI驱动的市场中，这些偏见可能会导致系统性的经济优势或劣势。

技术贡献

ChoiceEval的技术贡献包括提供了一个系统生成评估问题和评估AI助手中实体感知偏见的综合框架。该框架不仅适用于社会偏见的测量，还扩展到品牌和文化偏见的评估，尤其是在开放式推荐场景中。ChoiceEval通过心理图谱用户集群和主题特定的上下文生成问题，确保了更广泛的适用性。

新颖性

ChoiceEval的创新之处在于其首次系统性地生成评估问题并评估AI助手中的实体感知偏见。与以往主要集中于社会偏见的研究不同，ChoiceEval专注于开放式推荐场景中的品牌和文化偏见评估，提供了一个可扩展的基础来评估AI助手如何塑造现实世界的决策。

局限性

局限1：ChoiceEval框架的评估结果可能受到所选模型和数据集的限制，尤其是在地理偏见分析中，可能无法全面代表所有地区的偏好。
局限2：由于框架依赖于心理图谱用户集群，可能无法完全捕捉到所有用户的复杂行为和偏好。
局限3：在某些情况下，LLM的推荐可能受到训练数据中固有偏见的影响，而ChoiceEval可能无法完全消除这些偏见。

未来方向

未来的研究方向包括扩展ChoiceEval框架以涵盖更多的主题和用户集群，尤其是在非英语语境中。此外，可以进一步研究如何通过调整训练数据和模型架构来减少LLM中的地理和文化偏见。

AI 总览摘要

随着大型语言模型（LLM）如ChatGPT、Google Gemini和Meta AI的快速普及，个人与技术的互动方式发生了根本性的变化。这些对话式AI系统日益补充甚至取代了传统搜索引擎，成为信息获取的主要途径。然而，LLM在品牌和文化偏好中的地理偏见可能会对市场公平性、竞争性和信息曝光的多样性产生深远影响。

为了解决这一问题，本文引入了ChoiceEval，一个用于在现实使用条件下审计LLM品牌和文化偏好的可重复框架。ChoiceEval解决了生成现实的、个性化的评估查询以及将自由形式的输出转换为可比较的选择集和定量偏好指标的技术挑战。通过将用户分段为心理图谱并生成多样化的提示，ChoiceEval能够量化偏好和地理偏见。

在实验中，ChoiceEval被应用于Gemini、GPT和DeepSeek，覆盖10个主题和超过2000个问题。结果显示，美国开发的模型Gemini和GPT对美国实体表现出明显的偏好，而中国开发的DeepSeek则表现出更平衡但仍可检测的地理偏好。这些偏好模式在用户个性中持续存在，表明是系统性的而非偶然的效应。

然而，ChoiceEval也有其局限性。其评估结果可能受到所选模型和数据集的限制，尤其是在地理偏见分析中，可能无法全面代表所有地区的偏好。此外，由于框架依赖于心理图谱用户集群，可能无法完全捕捉到所有用户的复杂行为和偏好。未来的研究方向包括扩展ChoiceEval框架以涵盖更多的主题和用户集群，尤其是在非英语语境中。

深度分析

研究背景

近年来，随着大型语言模型（LLM）的发展，AI系统在信息获取和决策支持中的作用日益重要。LLM如ChatGPT、Google Gemini和Meta AI等已经成为许多人获取信息的主要途径。这些系统不仅影响个人的选择，还可能影响市场的公平性和竞争性。然而，现有研究主要集中在社会偏见上，如性别、种族和宗教偏见，而对品牌和文化偏见的研究相对较少。ChoiceEval框架的提出正是为了填补这一研究空白，通过系统性地评估LLM在品牌和文化偏好中的地理偏见，揭示其对市场和文化多样性的潜在影响。

核心问题

LLM在品牌和文化偏好中的地理偏见可能会对市场公平性、竞争性和信息曝光的多样性产生深远影响。尤其是在AI驱动的市场中，这些偏见可能会导致系统性的经济优势或劣势。现有研究主要集中在社会偏见上，而对品牌和文化偏见的研究相对较少。因此，亟需一种系统性的方法来评估LLM在品牌和文化偏好中的地理偏见，以揭示其对市场和文化多样性的潜在影响。

核心创新

ChoiceEval框架的核心创新在于其首次系统性地生成评估问题并评估AI助手中的实体感知偏见。与以往主要集中于社会偏见的研究不同，ChoiceEval专注于开放式推荐场景中的品牌和文化偏见评估，提供了一个可扩展的基础来评估AI助手如何塑造现实世界的决策。具体来说，ChoiceEval通过将用户分段为心理图谱并生成多样化的提示，能够量化偏好和地理偏见。这一方法不仅适用于社会偏见的测量，还扩展到品牌和文化偏见的评估，尤其是在开放式推荐场景中。

方法详解

ChoiceEval框架的实现包括以下几个步骤：

�� 用户集群定义：使用心理图谱用户集群（如预算意识、健康关注、便利性）来捕捉不同用户类型与AI助手的互动方式。

�� 问题生成：使用LLM将核心消费者集群适应于每个领域，将其一般特征转换为特定决策情境中的术语和关注点。

�� 响应提取：对每个LLM进行相同问题集的查询，并记录其响应。通过模拟专家评估，进行多次独立提取运行，以减少解码变异性和解析歧义。

�� 偏见分析：对提取的推荐进行统计分析，以揭示AI助手在品牌和文化偏好中的地理偏见。

实验设计

ChoiceEval框架在实验中被应用于Gemini、GPT和DeepSeek，覆盖10个主题和超过2000个问题。实验设计包括：

�� 数据集：选择涵盖商业和文化的10个主题，如酒店连锁、电动车、跑鞋等。

�� 基线：选择Gemini、GPT和DeepSeek作为对比模型，以揭示不同模型在品牌和文化偏好中的地理偏见。

�� 评估指标：使用标准化的top-k选择集来量化偏好和地理偏见。

�� 超参数：在每个主题和用户集群对中生成23个问题，总共2070个问题。

结果分析

实验结果显示，美国开发的模型Gemini和GPT对美国实体表现出明显的偏好，而中国开发的DeepSeek则表现出更平衡但仍可检测的地理偏好。这些偏好模式在用户个性中持续存在，表明是系统性的而非偶然的效应。在酒店连锁、电动车、跑鞋等多个领域，LLM推荐明显倾向于美国实体，尽管存在全球竞争对手。通过对提取的推荐进行统计分析，揭示了AI助手在品牌和文化偏好中的地理偏见。

应用场景

ChoiceEval框架的应用场景包括：

�� 市场审计：帮助研究人员和监管机构评估LLM在品牌和文化偏好中的地理偏见，以揭示其对市场和文化多样性的潜在影响。

�� 模型改进：为AI开发者提供关于LLM偏好的反馈，以改进模型的公平性和多样性。

�� 消费者保护：帮助消费者识别AI推荐中的偏见，以做出更明智的决策。

局限与展望

ChoiceEval框架的局限性包括：

�� 评估结果可能受到所选模型和数据集的限制，尤其是在地理偏见分析中，可能无法全面代表所有地区的偏好。

�� 由于框架依赖于心理图谱用户集群，可能无法完全捕捉到所有用户的复杂行为和偏好。

�� 在某些情况下，LLM的推荐可能受到训练数据中固有偏见的影响，而ChoiceEval可能无法完全消除这些偏见。未来的研究方向包括扩展ChoiceEval框架以涵盖更多的主题和用户集群，尤其是在非英语语境中。

通俗解读非专业人士也能看懂

想象一下你在一个大型购物中心，那里有各种各样的商店和品牌。你想买一双跑鞋，但不知道选择哪个品牌。这时，你的朋友（就像一个大型语言模型）给你推荐了几个品牌，但他总是偏向于推荐那些他熟悉的品牌，比如美国的品牌。这种偏好可能会影响你的选择，因为你可能会忽略其他同样优秀的品牌。ChoiceEval就像一个检测器，帮助你识别这些偏好，确保你能看到所有的选择，而不仅仅是那些被偏爱的品牌。通过这种方式，ChoiceEval帮助你做出更明智的决策，而不是被某些偏好所左右。

简单解释像给14岁少年讲一样

嘿，小伙伴！你知道吗？有时候我们在网上找东西，比如买鞋子或者找旅游景点，AI助手会给我们推荐一些选项。但这些AI助手有时候会偏向某些品牌或国家，就像你总是偏爱某个游戏角色一样。这可能会让我们错过其他好东西！ChoiceEval就像一个超级侦探，帮我们发现这些偏好，让我们看到更多的选择。这样，我们就不会被限制在某个小圈子里，而是能看到更广阔的世界！是不是很酷？

术语表

大型语言模型 (LLM)

大型语言模型是一种基于深度学习的AI系统，能够生成和理解自然语言文本。

在本文中，LLM用于生成品牌和文化偏好的推荐。

ChoiceEval

ChoiceEval是一个用于审计LLM品牌和文化偏好的框架，能够生成评估问题并量化偏好和地理偏见。

ChoiceEval用于评估LLM在品牌和文化偏好中的地理偏见。

心理图谱 (Psychographic Profile)

心理图谱是基于消费者的价值观和生活方式进行的用户分类，用于捕捉不同用户类型的行为和偏好。

在ChoiceEval中，心理图谱用于生成多样化的评估问题。

地理偏见 (Geographic Bias)

地理偏见是指AI系统在推荐中对某些地理区域的实体表现出偏好，可能导致市场不公平。

ChoiceEval用于检测LLM在品牌和文化偏好中的地理偏见。

标准化top-k选择集 (Normalized Top-k Choice Set)

标准化top-k选择集是指从LLM响应中提取的前k个推荐项，用于量化偏好和地理偏见。

在ChoiceEval中，用于评估LLM的推荐偏好。

品牌偏好 (Brand Preference)

品牌偏好是指消费者或AI系统在选择品牌时表现出的倾向性，可能受到多种因素影响。

ChoiceEval用于评估LLM在品牌推荐中的偏好。

文化偏好 (Cultural Preference)

文化偏好是指消费者或AI系统在选择文化实体时表现出的倾向性，可能影响文化多样性。

ChoiceEval用于评估LLM在文化推荐中的偏好。

开放式推荐场景 (Open-ended Recommendation Scenario)

开放式推荐场景是指用户在没有明确限制的情况下向AI系统请求建议的情境。

ChoiceEval用于评估LLM在开放式推荐场景中的偏好。

实体感知偏见 (Entity-perception Bias)

实体感知偏见是指AI系统在描述或推荐实体时表现出的偏见，可能影响用户的决策。

ChoiceEval用于检测LLM中的实体感知偏见。

市场公平性 (Market Fairness)

市场公平性是指市场参与者在竞争中享有平等机会，不受偏见或不公平行为影响。

ChoiceEval用于评估LLM对市场公平性的影响。

开放问题这项研究留下的未解疑问

1 如何在不影响模型性能的情况下减少LLM中的地理和文化偏见？现有方法主要集中在数据和模型架构的调整上，但这些方法可能会影响模型的整体性能。
2 在非英语语境中，LLM的品牌和文化偏好是否存在不同的表现？现有研究主要集中在英语语境中，而非英语语境中的偏好表现尚未得到充分研究。
3 如何在开放式推荐场景中更有效地检测和量化LLM的偏好？现有方法主要依赖于标准化的选择集，但在开放式场景中可能不够有效。
4 在多语言环境中，LLM的品牌和文化偏好是否会受到语言的影响？现有研究主要集中在单一语言环境中，而多语言环境中的偏好表现尚未得到充分研究。
5 如何在不影响用户体验的情况下提高LLM推荐的多样性？现有方法主要集中在模型和数据的调整上，但这些方法可能会影响用户的整体体验。

应用场景

近期应用

市场审计

ChoiceEval可以帮助研究人员和监管机构评估LLM在品牌和文化偏好中的地理偏见，以揭示其对市场和文化多样性的潜在影响。

模型改进

ChoiceEval为AI开发者提供关于LLM偏好的反馈，以改进模型的公平性和多样性，确保推荐的多样性和公平性。

消费者保护

ChoiceEval可以帮助消费者识别AI推荐中的偏见，以做出更明智的决策，避免被某些偏好所左右。

远期愿景

全球市场公平性

通过减少LLM中的地理和文化偏见，ChoiceEval有助于实现全球市场的公平性，确保所有市场参与者享有平等的竞争机会。

文化多样性保护

ChoiceEval通过揭示LLM中的文化偏好，促进文化多样性的保护，确保不同文化在全球范围内的可见性和代表性。

原文摘要

Large language models (LLMs) based AI systems increasingly mediate what billions of people see, choose and buy. This creates an urgent need to quantify the systemic risks of LLM-driven market intermediation, including its implications for market fairness, competition, and the diversity of information exposure. This paper introduces ChoiceEval, a reproducible framework for auditing preferences for brands and cultures in large language models (LLMs) under realistic usage conditions. ChoiceEval addresses two core technical challenges: (i) generating realistic, persona-diverse evaluation queries and (ii) converting free-form outputs into comparable choice sets and quantitative preference metrics. For a given topic (e.g. running shoes, hotel chains, travel destinations), the framework segments users into psychographic profiles (e.g., budget-conscious, wellness-focused, convenience), and then derives diverse prompts that reflect real-world advice-seeking and decision-making behaviour. LLM responses are converted into normalised top-k choice sets. Preference and geographic bias are then quantified using comparable metrics across topics and personas. Thus, ChoiceEval provides a scalable audit pipeline for researchers, platforms, and regulators, linking model behaviour to real-world economic outcomes. Applied to Gemini, GPT, and DeepSeek across 10 topics spanning commerce and culture and more than 2,000 questions, ChoiceEval reveals consistent preferences: U.S.-developed models Gemini and GPT show marked favouritism toward American entities, while China-developed DeepSeek exhibits more balanced yet still detectable geographic preferences. These patterns persist across user personas, suggesting systematic rather than incidental effects.

cs.HC cs.AI cs.CY cs.IR cs.LG

参考文献 (20)

The proof and measurement of association between two things.

C. Spearman

2015 6333 引用 ⭐ 高影响力

Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings

Tolga Bolukbasi, Kai-Wei Chang, James Y. Zou 等

2016 3587 引用查看解读 →

Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)

Liwei Jiang, Yuanjun Chai, Margaret Li 等

2025 30 引用查看解读 →

Cultural Values do Correlate with Consumer Behavior

W. Henry

1976 252 引用

Survey of Cultural Awareness in Language Models: Text and Beyond

S. Pawar, Junyeong Park, Jiho Jin 等

2024 101 引用查看解读 →

The silicon gaze: A typology of biases and inequality in LLMs through the lens of place

Francisco W. Kerche, M. Zook, Mark Graham

2026 1 引用

Consumer Behavior: Buying, Having, and Being

M. R. Solomon

1993 2343 引用

StereoSet: Measuring stereotypical bias in pretrained language models

Moin Nadeem, Anna Bethke, Siva Reddy

2020 1281 引用查看解读 →

On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜

Emily M. Bender, Timnit Gebru, Angelina McMillan-Major 等

2021 6668 引用

Assessing Cross-Cultural Alignment between ChatGPT and Human Societies: An Empirical Study

Yong Cao, Li Zhou, Seolhwa Lee 等

2023 286 引用查看解读 →

Richer Output for Richer Countries: Uncovering Geographical Disparities in Generated Stories and Travel Recommendations

Kirti Bhagat, Kinshuk Vasisht, Danish Pruthi

2024 6 引用查看解读 →

TravelAgent: Generative agents in the built environment

Ariel Noyman, Kai Hu, Kent Larson

2024 8 引用查看解读 →

Large Language Models are Geographically Biased

Rohin Manvi, Samar Khanna, Marshall Burke 等

2024 100 引用查看解读 →

BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language Generation

J. Dhamala, Tony Sun, Varun Kumar 等

2021 525 引用查看解读 →

What is in a name? Mitigating Name Bias in Text Embedding Similarity via Anonymization

S. Manchanda, Pannagadatta K. Shivaswamy

2025 2 引用

Are LLMs Rational Investors? A Study on the Financial Bias in LLMs

Yuhang Zhou, Yuchen Ni, Zhiheng Xi 等

2025 5 引用

Towards a Fair Marketplace: Counterfactual Evaluation of the trade-off between Relevance, Fairness & Satisfaction in Recommendation Systems

Rishabh Mehrotra, James McInerney, Hugues Bouchard 等

2018 314 引用

What Is Your AI Agent Buying? Evaluation, Biases, Model Dependence,&Emerging Implications for Agentic E-Commerce

Amine Allouah, Omar Besbes, Josue Figueroa 等

2025 5 引用查看解读 →

The Automated but Risky Game: Modeling and Benchmarking Agent-to-Agent Negotiations and Transactions in Consumer Markets

Shenzhe Zhu, Jiao Sun, Yi Nian 等

2025 1 引用查看解读 →

Using Natural Sentence Prompts for Understanding Biases in Language Models

Sarah Alnegheimish, Alicia Guo, Yi Sun

2022 26 引用查看解读 →

Auditing Preferences for Brands and Cultures in LLMs

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

大型语言模型 (LLM)

ChoiceEval

心理图谱 (Psychographic Profile)

地理偏见 (Geographic Bias)

标准化top-k选择集 (Normalized Top-k Choice Set)

品牌偏好 (Brand Preference)

文化偏好 (Cultural Preference)

开放式推荐场景 (Open-ended Recommendation Scenario)

实体感知偏见 (Entity-perception Bias)

市场公平性 (Market Fairness)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

市场审计

模型改进

消费者保护

远期愿景

全球市场公平性

文化多样性保护

原文摘要

参考文献 (20)

相关论文

Point & Grasp: Flexible Selection of Out-of-Reach Objects Through Probabilistic Cue Integration

The Collaboration Gap in Human-AI Work

Modeling Trial-and-Error Navigation With a Sequential Decision Model of Information Scent

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问