Characterizing Cultural Localization in AI-Generated Stories

TL;DR

提出一种衡量AI生成故事中文化本地化的模板识别方法，发现仅9-17%的词汇决定文化差异。

cs.CL 🔴 高级 2026-06-13 55 次浏览

Shaily Bhatt Supriti Vijay Jeremiah Milbauer Fernando Diaz

自然语言处理文化本地化故事生成模板识别模型分析

核心发现

方法论

本文提出一种两阶段方法：第一阶段通过计算词汇的点互信息（NPMI）识别出区分不同国家故事的文化标记；第二阶段通过多词相似性指标（如最长公共子串和Jaccard相似度）衡量在去除文化标记后故事的文本一致性。研究中，利用五个不同的语言模型（包括GPT-3.5、GPT-4、Llama 3.1、Llama 3.3、Gemma 12B）在193个国家、125个话题上生成故事，分析文化标记的比例及其对故事内容的影响。还结合SeeGULL数据集评估文化标记的刻板性和冒犯性，发现来自全球南方国家的文化标记平均更具冒犯性。

关键结果

研究显示，只有9-17%的词汇（平均占比约12%）在不同国家故事中起到区分作用，去除这些词后，剩余故事文本在多词相似性指标上表现出更高的同质性，表明存在共享的文化无关叙事模板。
在模型中，文化标记的去除使得国家间故事的分类准确率从原始的96.8%下降到接近随机（约0.5%），验证了文化标记的识别效果；同时，去除文化标记后，故事的多词相似性指标（如最长公共子串和4-gram Jaccard）平均提升了10-25%，显示出故事内容在结构上的一致性。
文化标记的刻板性分析表明，来自非洲和西亚国家的文化标记在SeeGULL数据集中平均被评为更具冒犯性（Likert 1-5，平均值高于3），提示模型生成的文化内容存在潜在偏见和敏感性问题。

研究意义

本研究为理解AI故事生成中的文化本地化机制提供了量化工具，有助于评估模型在跨文化场景下的表现差异。通过识别文化标记的比例和内容特征，为减少文化偏见、提升多样性提供理论依据。该方法还可应用于检测模型输出中的刻板印象和偏见，有助于推动公平、包容的AI内容生成技术发展。此外，研究揭示了故事内容在深层结构上的一致性，暗示未来可以通过优化模型训练策略，增强文化多样性和创造性。

技术贡献

本文提出一种结合词汇统计（NPMI）和文本相似性（最长公共子串和Jaccard相似度）的方法，用于识别和分析文化标记在AI生成故事中的作用。该方法在多模型、多话题、多国家的广泛实验中表现出较强的鲁棒性，验证了文化标记的稀疏性和故事内容的潜在共性。技术上，利用分类器（如mmBERT）评估文化标记的识别效果，并结合多词相似性指标检测剩余故事的结构一致性，为未来自动化文化内容分析提供了新工具。该研究还结合SeeGULL数据集，系统评估文化标记的刻板性和冒犯性，拓展了文化偏见检测的应用范围。

新颖性

本研究首次系统性地量化了AI生成故事中文化本地化的表征方式，明确区分了模板化（表面词汇替换）与深层叙事差异。通过结合词汇统计和多词相似性指标，揭示了故事内容在文化层面的潜在一致性，验证了文化标记在模型输出中的稀疏性和偏见分布。这一方法突破了传统仅关注词汇或主题的分析范畴，为理解模型在跨文化生成中的结构性偏差提供了新视角。研究还首次结合SeeGULL数据集，系统评估文化标记的刻板性和冒犯性，为未来文化偏见检测提供了量化指标。

局限性

本研究仅在英语语料和英文模型上进行，未考虑多语言环境下的文化标记差异，跨语言迁移能力有限。
文化标记的识别依赖于词汇的统计指标（NPMI），可能遗漏隐性文化元素或语义层面的差异，导致分析的全面性不足。
模型生成的故事受训练数据偏差影响，可能无法全面反映真实文化多样性，存在偏见和刻板印象的潜在风险。

未来方向

未来研究可扩展到多语言、多模态场景，结合跨语言的文化模板检测技术，提升分析的普适性。还可以引入深层语义分析和叙事结构建模，探索文化差异在故事深层结构中的表现。此外，结合用户反馈和偏见检测机制，优化模型生成的文化内容，减少偏见和冒犯性。进一步研究还应关注文化内容的动态演变和多样性，推动AI在多元文化环境中的公平性和创造性发展。

AI 总览摘要

在全球化背景下，人工智能（AI）生成内容的文化本地化问题日益受到关注。尤其是在故事生成任务中，如何识别模型是否通过模板化方式插入文化标记，或是实现深层次的文化差异，成为学界的重要课题。传统上，文化本地化被理解为表面词汇的替换，例如名字、地点等，但其深层结构是否也存在模板化，尚未得到系统性研究。

本文提出了一种创新的分析框架，结合词汇统计（如点互信息）和文本相似性指标（如最长公共子串和Jaccard相似度），用于量化AI生成故事中的文化标记比例及其对故事内容的影响。研究中，作者在五个不同的模型（包括GPT-3.5、GPT-4、Llama 3.1、Llama 3.3、Gemma 12B）上，针对193个国家和125个话题，生成了大量故事。通过识别和去除文化标记，发现仅占词汇总数的9-17%的词汇决定了文化差异，剩余故事在多词相似性指标上表现出更高的一致性，表明存在共享的文化无关叙事模板。

进一步分析显示，去除文化标记后，故事内容在结构上具有高度一致性，暗示模型在生成故事时，可能依赖于深层的模板结构，而非完全的文化差异表达。此外，结合SeeGULL数据集的评估，发现来自非洲和西亚国家的文化标记更容易被判定为冒犯性，揭示了潜在的偏见和敏感性问题。这些发现不仅丰富了对AI内容生成中文化本地化机制的理解，也为未来减少偏见、提升多样性提供了理论基础。

总体而言，该研究为AI生成故事的文化分析提供了量化工具，有助于推动公平、多样化的内容生成技术发展。未来工作可以扩展到多语言、多模态场景，结合深层语义分析，进一步揭示文化差异的深层结构，促进AI在多元文化环境中的应用与创新。

深度解读

原文摘要

The global use of artificial intelligence has increased interest in assessing the ability to generate culturally localized content, including stories. Cultural localization in stories often occurs through either templated localization -- the use of cultural markers (e.g., names, locations) in a generic narrative -- or holistic localization -- the variation of plots, values, and themes, in addition to cultural markers. We propose a method to measure the degree to which content was generated through templated localization. Specifically, we identify the lexical tokens that distinguish stories across nationalities and measure the similarity of the narratives that remain after removing them. In stories generated by five models on 125 topics for 193 nationalities, our method is able to detect that only a small subset (9-17%) of the vocabulary accounts for the variation across nationalities and that the narratives that remain after removing them contain repeated multi-word sequences, suggesting the presence of a shared culturally-agnostic narrative template. Finally, we characterize the cultural markers for their stereotypicality and offensiveness, finding that markers from 19 countries, mostly located in the Global South, are on average offensive.

cs.CL

参考文献 (20)

TALES: A Taxonomy and Analysis of Cultural Representations in LLM-generated Stories

Kirti Bhagat, Shaily Bhatt, Athul Velagapudi 等

2025 5 引用 ⭐ 高影响力查看解读 →

Extrinsic Evaluation of Cultural Competence in Large Language Models

Shaily Bhatt, F. Diaz

2024 24 引用 ⭐ 高影响力查看解读 →

Echoes in AI: Quantifying lack of plot diversity in LLM outputs

Weijia Xu, Nebojsa Jojic, Sudha Rao 等

2024 47 引用查看解读 →

Kahani: Culturally-Nuanced Visual Storytelling Tool for Non-Western Cultures

Hamna, D. Sudharsan, Agrima Seth 等

2024 6 引用查看解读 →

mmBERT: A Modern Multilingual Encoder with Annealed Language Learning

Marc Marone, Orion Weller, William Fleshman 等

2025 37 引用查看解读 →

Biased Tales: Cultural and Topic Bias in Generating Children's Stories

Donya Rooein, Vilém Zouhar, Debora Nozza 等

2025 14 引用查看解读 →

AI Suggestions Homogenize Writing Toward Western Styles and Diminish Cultural Nuances

Dhruv Agarwal, Mor Naaman, Aditya Vashistha

2024 120 引用查看解读 →

Can Good Writing Be Generative? Expert-Level AI Writing Emerges through Fine-Tuning on High Quality Books

Tuhin Chakrabarty, Paramveer Dhillon

2026 6 引用查看解读 →

Richer Output for Richer Countries: Uncovering Geographical Disparities in Generated Stories and Travel Recommendations

Kirti Bhagat, Kinshuk Vasisht, Danish Pruthi

2024 8 引用查看解读 →

Towards Automatic Evaluation for Image Transcreation

Simran Khanuja, V. Iyer, Claire He 等

2024 6 引用查看解读 →

DIWALI - Diversity and Inclusivity aWare cuLture specific Items for India: Dataset and Assessment of LLMs for Cultural Text Adaptation in Indian Context

Pramit Sahoo, Maharaj Brahma, M. Desarkar

2025 4 引用查看解读 →

Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)

Liwei Jiang, Yuanjun Chai, Margaret Li 等

2025 89 引用查看解读 →

STORYTELLER: An Enhanced Plot-Planning Framework for Coherent and Cohesive Story Generation

Jiaming Li, Yukun Chen, Ziqiang Liu 等

2025 10 引用查看解读 →

Research Borderlands: Analysing Writing Across Research Cultures

Shaily Bhatt, Tal August, Maria Antoniak

2025 3 引用查看解读 →

How Deep Is Representational Bias in LLMs? The Cases of Caste and Religion

Agrima Seth, Monojit Choudhary, Sunayana Sitaram 等

2025 13 引用查看解读 →

SANSKRITI: A Comprehensive Benchmark for Evaluating Language Models' Knowledge of Indian Culture

Arijit Maji, Raghvendra Kumar, Akash Ghosh 等

2025 15 引用查看解读 →

Detection and Measurement of Syntactic Templates in Generated Text

Chantal Shaib, Yanai Elazar, J. Li 等

2024 48 引用查看解读 →

The Shrinking Landscape of Linguistic Diversity in the Age of Large Language Models

Zhivar Sourati, Farzan Karimi-Malekabadi, Meltem Ozcan 等

2025 25 引用查看解读 →

QUDsim: Quantifying Discourse Similarities in LLM-Generated Text

Ramya Namuduri, Yating Wu, A. Zheng 等

2025 14 引用查看解读 →

Towards Measuring and Modeling “Culture” in LLMs: A Survey

Farid Adilazuarda, Sagnik Mukherjee, Pradhyumna Lavania 等

2024 189 引用查看解读 →

Characterizing Cultural Localization in AI-Generated Stories

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度解读

原文摘要

参考文献 (20)

相关论文

The Register Gap: A Meaning Intelligence Framework for Nigerian Public Discourse

Learning User Simulators with Turing Rewards

RubricsTree: Scalable and Evolving Open-Ended Evaluation of Personal Health Agents across Health Memory and Medical Skills

Benchmarking LLM Agents on Meta-Analysis Articles from Nature Portfolio

Operads for compositional reasoning in LLMs

VISTA: A Versatile Interactive User Simulation Toolkit for Agent Evaluation