Modular Representation Compression: Adapting LLMs for Efficient and Effective Recommendations

TL;DR

MARC方法通过模块化表示压缩提高推荐系统效率，在线测试提升eCPM 2.82%。

cs.IR 🔴 高级 2026-04-20 32 次浏览

Yunjia Xi Menghui Zhu Jianghao Lin Bo Chen Ruiming Tang Yong Yu Weinan Zhang

推荐系统大语言模型表示压缩模块化信息约束

核心发现

方法论

本文提出了一种新的模块化表示压缩方法（MARC），通过引入模块化调整和任务解耦，显式控制大语言模型（LLM）的模块化。具体而言，MARC通过模块化调整引入压缩和任务适应模块，使LLM仅作为表示学习模块。然后，使用信息约束和不同的网络结构进行模块化任务解耦，以确保每个模块专注于其特定任务。

关键结果

MARC在大规模商业搜索广告场景的在线A/B测试中实现了2.82%的eCPM提升，证明了其在实际应用中的有效性。
在MovieLens-1M数据集上的实验表明，MARC能够有效解决中层表示优势问题，在推荐任务中中层表示优于最终层表示。
通过对比实验，MARC在多个数据集上均表现出色，显著优于传统的最终层压缩方法。

研究意义

MARC方法在推荐系统领域具有重要意义，特别是在需要处理大量用户和项目的工业场景中。通过有效压缩LLM表示，MARC不仅降低了存储和计算成本，还提高了推荐系统的性能。该方法解决了现有压缩方法在最终层表示上的局限性，为推荐系统的高效部署提供了新的思路。

技术贡献

MARC的技术贡献在于其通过模块化调整和任务解耦，解决了现有压缩方法在最终层表示上的局限性。通过引入信息约束和不同的网络结构，MARC能够在不牺牲表示质量的情况下实现高效压缩。此外，MARC提供了一种新的框架，将表示学习与任务适应分离，保持了LLM的表示能力。

新颖性

MARC首次在推荐系统中显式控制LLM的模块化，解决了中层表示优势问题。与传统方法不同，MARC通过模块化调整和任务解耦，确保每个模块专注于其特定任务，从而提高了表示压缩的效率和效果。

局限性

MARC在某些特定场景下可能需要额外的任务适应模块设计，以确保其在不同任务中的通用性。
在处理极大规模数据集时，MARC的计算开销仍需进一步优化。
MARC的性能可能依赖于特定的LLM架构和训练数据集，需在不同场景下进行验证。

未来方向

未来的研究方向包括进一步优化MARC的计算效率，探索其在更多任务和数据集上的通用性，以及开发更轻量级的任务适应模块。此外，研究如何将MARC应用于其他类型的深度学习模型也是一个值得探索的方向。

AI 总览摘要

近年来，大语言模型（LLM）在推荐系统中的应用取得了显著进展。然而，LLM的高维表示带来了巨大的存储和计算成本，限制了其在工业推荐系统中的在线部署。现有的方法通常在离线生成和缓存增强表示，但这些方法在最终层表示的压缩上存在局限性。

本文提出了一种新的模块化表示压缩方法（MARC），通过显式控制LLM的模块化来提高推荐系统的效率和效果。MARC通过模块化调整引入压缩和任务适应模块，使LLM仅作为表示学习模块。然后，使用信息约束和不同的网络结构进行模块化任务解耦，以确保每个模块专注于其特定任务。

在实验中，MARC在多个数据集上表现优异，特别是在MovieLens-1M数据集上的实验表明，MARC能够有效解决中层表示优势问题。此外，MARC在大规模商业搜索广告场景的在线A/B测试中实现了2.82%的eCPM提升，证明了其在实际应用中的有效性。

尽管MARC在推荐系统中表现出色，但在处理极大规模数据集时，其计算开销仍需进一步优化。此外，MARC的性能可能依赖于特定的LLM架构和训练数据集，需在不同场景下进行验证。未来的研究方向包括进一步优化MARC的计算效率，探索其在更多任务和数据集上的通用性，以及开发更轻量级的任务适应模块。

深度分析

研究背景

大语言模型（LLM）近年来在自然语言处理领域取得了显著进展，其在推荐系统中的应用也引起了广泛关注。传统的推荐系统通常依赖于用户和项目的静态特征，而LLM能够通过生成高维表示，注入丰富的语义信息，从而显著提升推荐性能。然而，LLM的高维表示带来了巨大的存储和计算成本，限制了其在工业推荐系统中的在线部署。现有的方法通常在离线生成和缓存增强表示，以避免在线推理的高延迟，但这些方法在最终层表示的压缩上存在局限性。

核心问题

在推荐系统中，如何有效压缩大语言模型（LLM）的高维表示是一个关键问题。现有的方法通常在最终层进行压缩，但实验表明，中层表示在推荐任务中往往优于最终层表示。这一现象被称为中层表示优势（MRA），导致现有的压缩方法在最终层表示上的效果不佳。如何解决这一问题，提高推荐系统的效率和效果，是本文研究的核心问题。

核心创新

本文提出了一种新的模块化表示压缩方法（MARC），通过显式控制LLM的模块化来提高推荐系统的效率和效果。MARC的核心创新包括：

1. 模块化调整：引入压缩和任务适应模块，使LLM仅作为表示学习模块。

2. 模块化任务解耦：使用信息约束和不同的网络结构，以确保每个模块专注于其特定任务。

3. 信息约束：通过最大化原始和压缩表示之间的互信息，保持压缩表示的信息密度。

方法详解

MARC方法的具体步骤如下：

�� 模块化调整：引入压缩和任务适应模块，使LLM仅作为表示学习模块。
�� 模块化任务解耦：使用信息约束和不同的网络结构，以确保每个模块专注于其特定任务。
�� 信息约束：通过最大化原始和压缩表示之间的互信息，保持压缩表示的信息密度。
�� 用户-项目匹配网络：作为专用的任务适应模块，吸收训练目标的优化压力。

实验设计

实验在MovieLens-1M、Yelp和MovieLens-25M数据集上进行，使用的基线包括传统的最终层压缩方法和现有的投影头方法。实验指标包括点击率（CTR）和eCPM等。实验设计包括对比实验和消融实验，以验证MARC的有效性和鲁棒性。

结果分析

实验结果表明，MARC在多个数据集上均表现出色，显著优于传统的最终层压缩方法。在MovieLens-1M数据集上的实验表明，MARC能够有效解决中层表示优势问题。此外，MARC在大规模商业搜索广告场景的在线A/B测试中实现了2.82%的eCPM提升，证明了其在实际应用中的有效性。

应用场景

MARC方法在需要处理大量用户和项目的工业推荐系统中具有广泛的应用前景。通过有效压缩LLM表示，MARC不仅降低了存储和计算成本，还提高了推荐系统的性能。该方法特别适用于需要高效部署的场景，如在线广告推荐和个性化内容推荐等。

局限与展望

通俗解读非专业人士也能看懂

想象一下，你有一个巨大的图书馆，里面有各种各样的书籍，每本书都包含丰富的信息。现在，你需要从中挑选出最有用的信息来推荐给读者。大语言模型（LLM）就像这个图书馆，它可以生成大量的信息，但这些信息的存储和处理成本很高。为了提高效率，我们需要对这些信息进行压缩，就像把一本厚厚的书缩减成一个精华版。

MARC方法就像一个聪明的图书管理员，它能够识别出哪些信息是最有价值的，并将其提取出来。通过引入模块化调整和任务解耦，MARC确保每个模块专注于其特定任务，就像不同的图书管理员负责不同的书籍类别。

此外，MARC使用信息约束来确保压缩后的信息仍然保留了原始信息的精华。这就像在压缩书籍时，确保每个重要的章节和段落都被保留下来。最终，MARC能够以更低的成本提供高质量的推荐，就像用更少的书籍为读者提供更好的阅读体验。

简单解释像给14岁少年讲一样

嘿，小伙伴们！想象一下你在玩一个超级复杂的游戏，这个游戏有很多关卡，每个关卡都有不同的挑战。大语言模型（LLM）就像这个游戏，它可以生成很多有趣的内容，但有时候这些内容太多了，处理起来很麻烦。

所以，我们需要一个聪明的助手来帮我们挑选出最有用的内容，这就是MARC方法的作用。MARC就像一个超级助手，它能帮你把游戏中的重要信息提取出来，这样你就可以更快地通关啦！

MARC通过模块化调整和任务解耦，确保每个模块专注于自己的任务，就像每个游戏角色都有自己的特长一样。此外，MARC还使用信息约束来确保压缩后的信息仍然保留了原始信息的精华。这样，你就可以用更少的时间获得更好的游戏体验，是不是很酷？

所以，下次你在玩游戏的时候，记得想想MARC是怎么帮你提高效率的哦！

术语表

大语言模型 (LLM)

大语言模型是一种基于深度学习的自然语言处理模型，具有大量参数，能够生成高质量的文本表示。

在本文中，LLM用于生成推荐系统的高维表示。

模块化表示压缩 (MARC)

MARC是一种通过模块化调整和任务解耦来压缩LLM表示的方法，提高推荐系统的效率和效果。

MARC是本文提出的核心方法，用于解决中层表示优势问题。

中层表示优势 (MRA)

中层表示优势指的是在推荐任务中，LLM的中层表示往往优于最终层表示的现象。

本文通过MARC方法解决了中层表示优势问题。

信息约束

信息约束是一种通过最大化原始和压缩表示之间的互信息来保持信息密度的方法。

在MARC方法中，信息约束用于确保压缩表示的质量。

任务解耦

任务解耦是一种通过不同的网络结构和信息约束来确保每个模块专注于其特定任务的方法。

MARC通过任务解耦来提高表示压缩的效率。

用户-项目匹配网络

用户-项目匹配网络是MARC中的一个模块，用于吸收训练目标的优化压力。

在MARC方法中，用户-项目匹配网络作为专用的任务适应模块。

点击率 (CTR)

点击率是衡量推荐系统性能的一个重要指标，表示用户点击推荐项目的概率。

在实验中，CTR用于评估MARC方法的效果。

eCPM

eCPM是每千次展示的有效成本，用于衡量广告的效果和收益。

在在线A/B测试中，MARC实现了2.82%的eCPM提升。

投影头方法

投影头方法是一种通过在LLM的最终层添加投影层来进行表示压缩的方法。

本文对比了MARC与传统的投影头方法的效果。

开放问题这项研究留下的未解疑问

1 如何在极大规模数据集上进一步优化MARC的计算效率？现有方法在处理大规模数据时计算开销较高，需要开发更高效的算法。
2 MARC在不同类型的推荐任务中的通用性如何？现有研究主要集中在特定的数据集和任务上，需验证其在其他场景中的效果。
3 如何设计更轻量级的任务适应模块？现有的任务适应模块可能在某些场景下过于复杂，需要简化设计。
4 MARC在不同LLM架构上的性能表现如何？现有研究主要基于特定的LLM架构，需探索其在其他架构上的适应性。
5 如何将MARC应用于其他类型的深度学习模型？现有研究主要集中在LLM上，需探索其在其他模型中的应用潜力。

应用场景

近期应用

在线广告推荐

MARC可以用于在线广告推荐，通过压缩LLM表示，降低存储和计算成本，提高广告推荐的效率和效果。

个性化内容推荐

在个性化内容推荐中，MARC可以通过高效压缩表示，提高推荐系统的性能，为用户提供更精准的推荐。

社交媒体推荐

MARC可以应用于社交媒体平台，通过压缩用户和内容的表示，提高推荐系统的响应速度和推荐质量。

远期愿景

智能助手

MARC可以用于开发更智能的助手，通过高效处理大量信息，提供更精准的建议和服务。

自动驾驶

在自动驾驶中，MARC可以用于压缩和处理传感器数据，提高系统的实时响应能力和决策准确性。

原文摘要

Recently, large language models (LLMs) have advanced recommendation systems (RSs), and recent works have begun to explore how to integrate LLMs into industrial RSs. While most approaches deploy LLMs offline to generate and pre-cache augmented representations for RSs, high-dimensional representations from LLMs introduce substantial storage and computational costs. Thus, it is crucial to compress LLM representations effectively. However, we identify a counterintuitive phenomenon during representation compression: Mid-layer Representation Advantage (MRA), where representations from middle layers of LLMs outperform those from final layers in recommendation tasks. This degraded final layer renders existing compression methods, which typically compress on the final layer, suboptimal. We interpret this based on modularity theory that LLMs develop spontaneous internal functional modularity and force the final layer to specialize in the proxy training task. Thus, we propose \underline{M}odul\underline{a}r \underline{R}epresentation \underline{C}ompression (MARC) to explicitly control the modularity of LLMs. First, Modular Adjustment explicitly introduces compression and task adaptation modules, enabling the LLM to operate strictly as a representation-learning module. Next, to ground each module to its specific task, Modular Task Decoupling uses information constraints and different network structures to decouple tasks. Extensive experiments validate that MARC addresses MRA and produces efficient representations. Notably, MARC achieved a 2.82% eCPM lift in an online A/B test within a large-scale commercial search advertising scenario.

cs.IR cs.AI cs.CL

参考文献 (20)

2D Matryoshka Training for Information Retrieval

Shuai Wang, Shengyao Zhuang, B. Koopman 等

2024 5 引用 ⭐ 高影响力查看解读 →

DCN V2: Improved Deep & Cross Network and Practical Lessons for Web-scale Learning to Rank Systems

Ruoxi Wang, Rakesh Shivanna, D. Cheng 等

2020 782 引用 ⭐ 高影响力查看解读 →

Representation Learning with Large Language Models for Recommendation

Xubin Ren, Wei Wei, Lianghao Xia 等

2023 379 引用 ⭐ 高影响力查看解读 →

Deep & Cross Network for Ad Click Predictions

Ruoxi Wang, Bin Fu, G. Fu 等

2017 1472 引用 ⭐ 高影响力查看解读 →

Breaking the Length Barrier: LLM-Enhanced CTR Prediction in Long Textual User Behaviors

Binzong Geng, Zhaoxin Huan, Xiaolu Zhang 等

2024 49 引用 ⭐ 高影响力查看解读 →

LARR: Large Language Model Aided Real-time Scene Recommendation with Semantic Understanding

Zhizhong Wan, Bin Yin, Jun Xie 等

2024 12 引用 ⭐ 高影响力查看解读 →

Behavior-Dependent Linear Recurrent Units for Efficient Sequential Recommendation

Chengkai Liu, Jianghao Lin, Hanzhou Liu 等

2024 19 引用查看解读 →

A survey on large language models for recommendation

Likang Wu, Zhilan Zheng, Zhaopeng Qiu 等

2023 774 引用查看解读 →

ClickPrompt: CTR Models are Strong Prompt Generators for Adapting Language Models to CTR Prediction

Jianghao Lin, Bo Chen, Hangyu Wang 等

2023 58 引用查看解读 →

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Jacob Devlin, Ming-Wei Chang, Kenton Lee 等

2019 113254 引用查看解读 →

Variational Autoencoder for Deep Learning of Images, Labels and Captions

Yunchen Pu, Zhe Gan, Ricardo Henao 等

2016 828 引用查看解读 →

Learning deep representations by mutual information estimation and maximization

R. Devon Hjelm, A. Fedorov, Samuel Lavoie-Marchildon 等

2018 2964 引用查看解读 →

LoRA: Low-Rank Adaptation of Large Language Models

J. Hu, Yelong Shen, Phillip Wallis 等

2021 18198 引用查看解读 →

Fine-Tuning LLaMA for Multi-Stage Text Retrieval

Xueguang Ma, Liang Wang, Nan Yang 等

2023 375 引用查看解读 →

Recommender Systems in the Era of Large Language Models (LLMs)

Wenqi Fan, Zihuai Zhao, Jiatong Li 等

2023 483 引用查看解读 →

Large Language Models for Generative Recommendation: A Survey and Visionary Discussions

Lei Li, Yongfeng Zhang, Dugang Liu 等

2023 138 引用查看解读 →

Auto-encoder based dimensionality reduction

Yasi Wang, H. Yao, Sicheng Zhao

2016 911 引用

Adapting Large Language Models by Integrating Collaborative Semantics for Recommendation

Bowen Zheng, Yupeng Hou, Hongyu Lu 等

2023 303 引用查看解读 →

On-device Integrated Re-ranking with Heterogeneous Behavior Modeling

Yunjia Xi, Weiwen Liu, Yang Wang 等

2023 12 引用

Principal Components Analysis (PCA)

John M. Hancock

2014 537 引用

Modular Representation Compression: Adapting LLMs for Efficient and Effective Recommendations

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

大语言模型 (LLM)

推荐系统

模块化表示压缩 (MARC)

中层表示优势 (MRA)

信息约束

任务解耦

用户-项目匹配网络

点击率 (CTR)

eCPM

投影头方法

开放问题 这项研究留下的未解疑问

应用场景

近期应用

在线广告推荐

个性化内容推荐

社交媒体推荐

远期愿景

智能助手

自动驾驶

原文摘要

参考文献 (20)

相关论文

Aligning Dense Retrievers with LLM Utility via DistillationAligning Dense Retrievers with LLM Utility via Distillation

Can QPP Choose the Right Query Variant? Evaluating Query Variant Selection for RAG Pipelines

Objective Shaping with Hard Negatives: Windowed Partial AUC Optimization for RL-based LLM Recommenders

Rethinking Semantic Collaborative Integration: Why Alignment Is Not Enough

ResRank: Unifying Retrieval and Listwise Reranking via End-to-End Joint Training with Residual Passage Compression

ECLASS-Augmented Semantic Product Search for Electronic Components

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问