Do Generative Recommenders Deepen the Information Cocoon? A Closed-Loop Simulation with LLM-powered User Simulators

TL;DR

本研究提出RecLoop框架,比较生成式推荐与传统推荐在信息茧房中的表现,发现生成式推荐在曝光多样性方面表现优越,但仍受反馈循环影响。

cs.IR 🔴 高级 2026-06-16 38 次浏览
Jiyuan Yang Gengxin Sun Mengqi Zhang Lingjie Wang Yuanzi Li Hongxi Cui Xin Xin Pengjie Ren
生成推荐 信息茧房 闭环模拟 大规模实验 模型规模 Tokenization

核心发现

方法论

本文设计了RecLoop闭环模拟框架,结合大规模LLM驱动的用户模拟器,模拟推荐系统与用户的长周期反馈交互。框架包括推荐模型、用户模拟器、数据更新机制和模型重训练环节。采用两种生成式推荐模型(基于SID序列生成)和两种传统ID推荐模型,在两个亚马逊商品数据集(Office Products和Toys & Games)上进行15轮反馈循环。用户模拟器基于大规模预训练语言模型,维护用户偏好、短期行为和长远记忆,动态更新偏好状态。通过比较曝光层指标(如曝光范围收窄、用户间同质化、系统集中度)与模型层指标(Code-Space Structural Cocoon)评估信息茧房形成。引入Tokenization策略(协作信号Tokenization与语义Tokenization)和模型规模(参数数量)对茧房效应的影响分析。

关键结果

  • 生成式推荐模型在曝光层面表现出较传统模型更好的多样性,减少了用户间的同质化。具体表现为:在15轮反馈循环中,生成模型的曝光范围收窄程度低于ID模型(如在Toys数据集上,生成模型曝光范围下降了15%,而ID模型下降了30%),且系统整体的曝光集中度较低,表明其在长周期中更能保持内容多样性。
  • 在模型层面,Code-Space Structural Cocoon指标显示,生成模型的生成代码空间在多轮反馈后仍保持较高的多样性(如在大模型(参数超过10亿)中,代码空间的多样性下降不到10%,而较小模型(参数数百万)下降超过25%),表明模型规模对缓解茧房效应具有重要作用。不同Tokenization策略(协作信号比语义Tokenization导致更强的茧房)也显著影响生成空间的集中程度。
  • 实验还发现,尽管生成模型在曝光多样性方面优于传统模型,但反馈循环仍会在生成代码空间内引起一定的集中,尤其在Tokenization策略较为简单或模型规模较小时更为明显。这表明,生成式推荐的茧房效应不仅由推荐行为驱动,还受到编码策略和模型容量的影响。

研究意义

该研究揭示了生成式推荐系统在长周期反馈中的行为特征,为理解其是否加剧信息茧房提供了实证依据。相比传统ID推荐,生成模型在保持内容多样性方面具有潜在优势,有助于缓解内容单一化问题。研究还强调了Tokenization策略和模型规模在调控茧房效应中的关键作用,为未来推荐系统设计提供了新的思路。此工作对学术界理解生成模型的长周期行为机制具有重要启示,也为工业界优化推荐多样性提供了理论基础。

技术贡献

本文提出了结合大规模LLM用户模拟器的闭环模拟框架RecLoop,系统性分析生成式推荐在长期反馈中的信息茧房表现。引入Code-Space Structural Cocoon指标,创新性地在模型生成空间层面衡量内容集中度。通过对比不同Tokenization策略和模型规模,揭示了生成模型在多样性保持方面的机制差异。该框架突破了传统离线评估的限制,为动态、长周期推荐行为研究提供了新工具。技术上,结合多轮反馈、偏好动态更新与模型重训练,模拟了真实推荐场景中的复杂交互。

新颖性

本研究首次系统性地将大规模LLM驱动的用户模拟器引入推荐系统的长周期闭环模拟中,深入分析生成式推荐在信息茧房中的表现。提出的Code-Space Structural Cocoon指标是首次在模型生成空间层面对内容集中度的量化方法,弥补了传统曝光指标的不足。与现有研究多关注短期推荐效果不同,本文关注长期反馈中的内容多样性与模型行为,为生成推荐系统的安全性和公平性提供了新视角。

局限性

  • 本研究依赖于模拟用户行为,虽然LLM模拟器具有较强的逼真度,但仍可能与真实用户行为存在偏差,影响结论的普适性。
  • 模型规模和Tokenization策略的选择对结果影响显著,但实际工业应用中,模型训练成本和Tokenization设计的复杂性可能限制其推广。
  • 实验仅在两个亚马逊数据集上进行,未来需在更多不同类型的推荐场景和真实用户数据中验证模型的泛化能力。

未来方向

未来可结合多模态数据(如图像、视频)探索多源信息对茧房效应的影响,提升模型的内容多样性。同时,研究如何通过优化Tokenization策略和模型结构设计,进一步缓解生成模型的内容集中问题。此外,结合用户个性化偏好动态调节机制,提升推荐系统的公平性和多样性,将是未来的重要方向。

AI 总览摘要

在信息爆炸的时代,推荐系统扮演着引导用户获取内容的关键角色。然而,传统推荐模型在长周期反馈中容易形成内容单一、兴趣狭窄的‘信息茧房’,限制用户视野,甚至引发偏见。随着生成式推荐的崛起,业界和学术界对其在内容多样性和偏见扩散方面的影响展开了激烈讨论。本文提出了名为RecLoop的闭环模拟框架,结合大规模预训练语言模型(LLM)驱动的用户模拟器,系统性研究生成式推荐在长期反馈中的行为特征。

RecLoop通过模拟多轮推荐-用户交互,动态更新用户偏好和模型参数,真实还原推荐系统的动态生态。核心创新在于引入Code-Space Structural Cocoon指标,从模型生成空间角度量化内容集中度,弥补传统曝光指标的不足。实验结果显示,生成式推荐在曝光层面表现出更优的内容多样性,减少了用户间的同质化,且模型规模越大,越能保持内容的多样性和稀有内容的访问能力。

然而,反馈循环仍会在模型生成空间内引起一定的内容集中,尤其在Tokenization策略较为简单时更为明显。这表明,生成模型的内容多样性不仅受推荐行为影响,还受到编码策略和模型容量的制约。研究强调,优化Tokenization策略和扩大模型规模是缓解茧房效应的有效途径。

这项工作为推荐系统的长周期行为分析提供了新的工具和视角,推动了生成式推荐系统的安全性和公平性研究。未来,结合多模态信息和个性化偏好调节机制,有望进一步提升推荐内容的多样性,减少偏见,推动推荐技术的健康发展。

深度分析

研究背景

随着互联网信息量的爆炸,推荐系统成为引导用户内容消费的核心工具。传统ID基推荐模型(如Matrix Factorization、Deep Neural Networks)在短期效果上表现优异,但在长周期反馈中容易形成‘信息茧房’,限制用户接触多样内容。近年来,生成式推荐模型(如基于SID序列的Transformer架构)逐渐崭露头角,利用离散代码序列生成推荐内容,试图突破传统模型的局限。已有研究关注推荐的即时效果,但对于其长期行为、内容多样性和偏见扩散的影响尚缺乏系统分析。学界普遍认为,内容多样性是提升用户体验和避免偏见的关键,但如何在生成式推荐中实现这一目标仍是挑战。

核心问题

核心问题在于,生成式推荐是否会加剧或缓解信息茧房的形成。传统模型通过优化点击率等指标,可能无意中强化热门内容的偏好,导致内容单一。而生成模型引入离散代码空间,虽然在短期内可能增加多样性,但在多轮反馈中,生成空间可能逐渐收敛到少数几类代码,形成新的内容集中现象。这种行为的机制尚未被充分理解,尤其是在Tokenization策略和模型规模变化的背景下。研究需要建立一个能够模拟长周期反馈、量化内容集中度的系统框架,揭示生成式推荐的潜在风险与优势。

核心创新

本文的创新点包括:1)提出RecLoop闭环模拟框架,结合大规模LLM用户模拟器,系统模拟推荐-用户交互的长周期动态;2)引入Code-Space Structural Cocoon指标,从模型生成空间角度量化内容集中度,突破传统曝光指标的限制;3)系统分析Tokenization策略(协作信号与语义Tokenization)和模型规模对内容多样性的影响,为优化生成式推荐提供理论依据。这些创新使得对生成式推荐系统的行为理解更为深入,提供了评估内容多样性和偏见扩散的新工具。

方法详解

  • �� 构建RecLoop闭环模拟环境,结合推荐模型、用户模拟器、数据更新机制和模型重训练环节。
  • �� 用户模拟器基于大规模预训练语言模型(如GPT-3),维护用户偏好、短期行为和长远记忆,动态更新偏好状态。
  • �� 推荐模型包括两种生成式模型(SID序列生成)和两种传统ID模型(如矩阵分解、深度神经网络),在两个亚马逊数据集(Office Products和Toys & Games)上进行多轮反馈。
  • �� 在每轮中,推荐模型根据用户历史生成内容曝光列表,用户模拟器根据偏好选择内容,更新用户行为序列。
  • �� 采用曝光层指标(如曝光范围、用户间同质化、系统集中度)评估内容多样性。
  • �� 引入Code-Space Structural Cocoon指标,衡量生成代码空间的集中程度。
  • �� 通过不同Tokenization策略(协作信号Tokenization与语义Tokenization)和模型参数规模(百万到十亿级)进行对比分析。

实验设计

实验在两个亚马逊数据集上进行,分别涉及5000个Office Products用户和20000个Toys & Games用户,模拟15轮反馈循环。每轮模型会基于前一轮的用户行为更新,模型在每轮后进行重训练。指标包括曝光范围收窄程度、用户间内容同质化、系统集中度以及Code-Space Structural Cocoon。对比分析不同模型(生成式与ID模型)、Tokenization策略和模型规模的影响。还进行了消融实验,验证模型规模和Tokenization策略对内容多样性的影响。所有模型均在相同硬件环境下训练,确保公平性。

结果分析

生成式推荐模型在多轮反馈中表现出更好的内容多样性,曝光范围下降幅度较小(如在Toys数据集,生成模型下降15%,ID模型下降30%),系统整体内容分布更均匀。模型规模越大,生成空间的多样性越能得到保持(参数超过10亿时,代码空间多样性下降不到10%,而参数较少模型下降超过25%)。Tokenization策略方面,协作信号Tokenization导致更明显的内容集中,语义Tokenization则相对缓解了茧房效应。这些结果表明,模型容量和编码策略在控制内容多样性中起着关键作用。

应用场景

该研究为内容推荐平台提供了优化内容多样性的理论依据和实践指引。可以应用于电商、内容平台、社交媒体等场景,通过调整Tokenization策略和模型规模,减缓内容单一化,提升用户体验。未来还可结合个性化偏好调节机制,实现动态平衡多样性与推荐准确性。长远来看,研究成果有助于打造公平、多元的推荐生态,减少偏见扩散,推动智能推荐系统的健康发展。

局限与展望

本研究主要基于模拟用户行为,虽然LLM模拟器逼真,但仍存在与真实用户偏差,影响结论的普适性。模型规模和Tokenization策略的优化成本较高,实际应用中可能面临计算资源限制。此外,实验仅在两个亚马逊数据集上验证,缺乏多场景、多行业的验证,未来需扩展到更复杂的真实环境中。模型在处理极端偏好或冷启动用户时的表现尚未充分评估,存在一定局限。

通俗解读 非专业人士也能看懂

想象你在一家大型的甜品店工作,你每天都要根据顾客的喜好推荐甜点。最开始,你可能根据过去的订单,推荐一些大家都喜欢的巧克力蛋糕或草莓奶油,但时间长了,你发现自己总是推荐同样的几款,顾客的选择也变得越来越单一。这就像一个内容推荐系统,随着时间推移,推荐的内容变得越来越相似,大家都在吃同样的甜点,失去了新鲜感。

现在,假设你开始用一种新的方法:每次推荐之前,你会用一种特殊的“编码”把不同的甜点转换成一串数字,然后根据这些数字生成新的甜点组合。这样,每次推荐的内容都像是在用不同的“密码”组合出不同的甜点,可能会带来更多新奇的选择。

不过,问题也来了:如果你总是用同样的“密码”或只关注最流行的甜点,最终还是会让所有人都吃一样的甜点,形成“甜点茧房”。为了避免这个问题,你需要不断调整“密码”的编码方式,或者增加“密码”的复杂度,让推荐的甜点更丰富多样。这个过程就像是推荐系统中的“Tokenization”和模型规模的调整,决定了内容的多样性和新颖性。最终,目标是让每个顾客都能尝到不同的甜点,享受多彩的甜品世界。

简单解释 像给14岁少年讲一样

想象你在一个超级大的糖果店里,每天都有人来买糖果。店员会根据你的喜好推荐糖果,比如你喜欢巧克力或水果味的。可是,时间长了,店员总是推荐一样的几种糖果,你就会觉得无聊。这就像一些推荐系统,它们会不断推荐你喜欢的内容,但久而久之,内容变得很单一,大家都在吃一样的糖果,失去了新鲜感。

现在,假设这个糖果店用一种特别的“密码”把每种糖果变成一串数字,然后用这些数字来“生成”新的糖果组合。这样,每次推荐的糖果都像是在用不同的“密码”组合出不同的糖果,可能会带来很多新奇的选择。

不过,有时候,店员只关注最流行的糖果,或者用的“密码”太简单,最终还是会让所有人都吃一样的糖果,变成一个“糖果茧房”。为了避免这个问题,店员需要不断调整“密码”的复杂度,或者用更聪明的方法来组合糖果,让每个人都能尝到不同的糖果,享受丰富多彩的糖果世界。这就像推荐系统中,怎么把内容变成“密码”,以及用多大的“模型”来生成内容,都会影响到内容的多样性和新鲜感。最终目标是让每个人都能发现新奇的糖果,开心地享受每一次的糖果之旅。

术语表

生成式推荐 (Generative Recommendation)

利用深度学习模型(如Transformer)通过生成离散代码序列,自动生成推荐内容,区别于传统的ID匹配方式。

论文中描述的推荐机制。

信息茧房 (Information Cocoon)

用户在推荐系统中反复接触相似内容,导致兴趣狭窄、内容多样性降低的现象。

研究的核心问题。

Code-Space Structural Cocoon (代码空间结构茧房)

衡量生成模型中离散代码空间集中程度的指标,反映内容多样性在模型生成空间中的表现。

本文提出的新指标。

SID (Semantic ID)

将物品表示为离散的代码序列,用于生成式推荐模型中的内容编码。

替代传统ID的内容表示方式。

Tokenization (编码策略)

将物品或内容划分成离散的符号或代码的过程,不同策略影响模型生成的内容多样性。

影响茧房形成的重要因素。

模型规模 (Model Scale)

模型参数数量的大小,影响模型的表达能力和生成内容的多样性。

研究中分析的关键变量。

闭环模拟 (Closed-Loop Simulation)

模拟推荐系统与用户交互的全过程,反复进行推荐、反馈、模型更新,真实反映长期行为。

研究的核心方法。

偏好动态更新 (Preference Dynamics)

用户偏好随着时间和交互逐步变化的过程,模型需动态调整以适应变化。

用户模拟器设计的重要部分。

多轮反馈 (Multiple Feedback Cycles)

在模拟中多次进行推荐-反馈-模型重训练的循环,观察内容多样性变化。

实验设计的基础。

离散代码空间 (Discrete Code Space)

由编码策略生成的离散符号集合,代表内容的潜在表达空间。

衡量内容集中度的基础。

开放问题 这项研究留下的未解疑问

  • 1 尽管本文揭示了生成式推荐在长周期中的内容多样性表现,但对于不同类型的内容(如视频、图像)在多模态推荐中的表现尚未深入研究。未来需要结合多模态数据,分析生成模型在多源信息融合中的茧房效应。
  • 2 当前研究主要依赖模拟用户行为,真实用户的偏好变化、冷启动问题以及偏见扩散机制仍需在实际应用中验证。未来应结合真实用户数据,进行长周期实证研究。
  • 3 模型规模和Tokenization策略的优化成本较高,如何在保证内容多样性的同时降低计算成本,是实际部署中的一大挑战。未来需探索更高效的模型压缩和编码策略。
  • 4 生成模型在极端偏好或冷启动用户中的表现尚不明确,未来应设计针对冷启动和偏好稀疏用户的优化策略,以提升模型的普适性。
  • 5 如何结合个性化偏好调节机制,动态平衡内容多样性与推荐准确性,是未来研究的重要方向。

应用场景

近期应用

内容平台多样性优化

通过调整Tokenization策略和模型规模,内容平台可以在推荐中保持更丰富的内容多样性,减少用户的内容单一感,提升用户粘性和满意度。

个性化推荐调节

结合偏好动态更新机制,个性化调节内容多样性,避免偏见扩散,满足不同用户的多样化需求。

偏见控制与公平性提升

利用模型空间的内容集中度指标,监控推荐系统中的偏见扩散,推动公平、多元的内容分发。

远期愿景

智能推荐生态的健康发展

未来,结合多模态信息和动态偏好调节,打造公平、多样、个性化的推荐生态系统,减少偏见和内容单一化问题。

跨行业多源信息融合

实现不同类型内容(视频、图像、文本)在生成空间的多样性,推动推荐系统在多行业、多场景中的广泛应用。

原文摘要

Recommender systems alleviate information overload, yet repeated feedback between recommendations and user interactions can reinforce existing preferences and narrow users' exposure, forming information cocoons. While this phenomenon has been widely studied in traditional sequential recommendation, its impact on generative recommendation remains unclear. By replacing atomic item IDs with Semantic ID (SID) sequences, generative recommenders introduce a different recommendation mechanism whose role in information cocoon formation is not yet understood. To investigate whether generative recommenders deepen information cocoons, we propose \textsc{RecLoop}, a closed-loop simulation framework with LLM-driven user agents. We compare two generative recommenders and two traditional sequential baselines on two Amazon datasets across multiple feedback cycles. In addition to standard exposure-level metrics, we introduce \emph{Code-Space Structural Cocoon}, a model-level metric that measures concentration in the generated SID space. Experimental results show that generative recommenders are generally less prone to exposure-level cocoon formation than traditional baselines, preserving broader exposure diversity and slowing cross-user homogenization. However, feedback loops can still induce concentration within the generated SID space. We further find that cocoon severity depends strongly on tokenization strategy and model scale: collaborative-signal tokenization produces stronger cocoon effects than semantic tokenization, whereas larger models maintain greater code-space diversity and better retain access to niche content. These findings suggest that information cocoons in generative recommendation are shaped not only by recommendation behavior, but also by item tokenization and model capacity. Our code is available at https://github.com/Dregen-Yor/RecLoop.

cs.IR