Quantized Inference for OneRec-V2

TL;DR

OneRec-V2通过FP8量化推理实现49%延迟减少和92%吞吐量提升。

cs.IR 🔴 高级 2026-03-12 8 次浏览
Yi Su Xinchen Luo Hongtao Cheng Ziteng Shu Yunfeng Zhao Fangyu Zhang Jiaqiang Liu Xiao Liang Yiwu Liu Ruiming Tang
量化推理 推荐系统 FP8 OneRec-V2 硬件利用率

核心发现

方法论

本研究提出了一种针对OneRec-V2的FP8后训练量化框架,并将其集成到优化的推理基础设施中。通过分析权重和激活的统计分布,发现OneRec-V2的数值行为更接近于大型语言模型,且推理模式更为计算密集,硬件利用率更高。该方法通过控制权重和激活的数值范围,实现了低精度计算的有效应用。

关键结果

  • 通过FP8后训练量化框架,OneRec-V2在端到端推理延迟上减少了49%,吞吐量增加了92%。这些改进主要得益于基础设施升级、低精度计算和操作级优化的结合。
  • 在线A/B测试显示,FP8推理在核心指标上没有引入任何性能下降,证明低精度推理在实际生产环境中是可行的。
  • 通过对比传统推荐模型和大型语言模型,OneRec-V2在权重和激活的分布特性上更接近于后者,使得低精度量化的应用更加合理。

研究意义

本研究表明,随着推荐系统向大型语言模型的范式演进,低精度计算技术可以有效适用于大规模推荐工作负载。这不仅在学术界具有重要意义,也为工业界提供了新的优化方向,尤其是在硬件利用率和推理效率方面。通过将低精度技术从大型语言模型领域引入到推荐系统中,研究解决了传统推荐模型在数值行为和硬件利用率方面的痛点。

技术贡献

技术贡献包括开发了一种FP8后训练量化框架,结合优化的推理基础设施,实现了显著的延迟减少和吞吐量提升。与现有的推荐系统相比,OneRec-V2通过更为密集的计算路径和统一的执行模式,提高了硬件利用率。此外,研究还展示了如何将大型语言模型中的低精度技术有效转移到推荐系统中。

新颖性

本研究首次将FP8量化推理成功应用于推荐系统,并证明其在OneRec-V2中的有效性。与传统推荐模型相比,OneRec-V2在数值行为和硬件利用率上的改进,使得低精度计算的应用成为可能。这一创新为推荐系统的优化提供了新的思路。

局限性

  • 当前研究仅探讨了FP8推理,并未涉及更低精度的设置,如INT8、FP6或FP4,因此未揭示生成推荐模型的完整精度-效率边界。
  • 解决方案依赖于大量的基础设施支持和系统级定制,可能限制其在缺乏先进推理堆栈或工程资源的生产环境中的可重现性和可移植性。
  • 研究仅在OneRec-V2上进行实验,未涵盖更广泛的生成推荐架构,尚不清楚观察到的量化特性和部署收益在不同模型设计中的普适性。

未来方向

未来工作可以探索更低精度的量化设置,以进一步提高效率。此外,研究可以扩展到其他生成推荐模型,以验证量化技术的普适性。还可以开发更通用的基础设施,以降低对特定硬件和系统的依赖,从而提高方案的可移植性。

AI 总览摘要

在推荐系统中应用低精度量化推理一直是一个挑战,传统模型在数值行为和硬件利用率方面存在显著差异,导致低精度计算的实际收益有限。OneRec-V2通过更为密集的计算路径和统一的执行模式,缩小了与大型语言模型之间的差距,为低精度量化的应用提供了可能。

本研究提出了一种FP8后训练量化框架,并将其集成到优化的推理基础设施中。通过对权重和激活的统计分布进行分析,发现OneRec-V2的数值行为更接近于大型语言模型,推理模式更为计算密集,硬件利用率更高。这一发现为低精度计算的应用提供了坚实的基础。

在实验中,FP8量化推理在OneRec-V2上实现了49%的端到端推理延迟减少和92%的吞吐量提升。基础设施升级、低精度计算和操作级优化的结合是实现这些改进的关键。在线A/B测试进一步证实,FP8推理在核心指标上没有引入任何性能下降。

这些结果表明,随着推荐系统向大型语言模型的范式演进,低精度计算技术可以有效适用于大规模推荐工作负载。这不仅在学术界具有重要意义,也为工业界提供了新的优化方向,尤其是在硬件利用率和推理效率方面。

然而,当前研究仅探讨了FP8推理,并未涉及更低精度的设置,如INT8、FP6或FP4。因此,未来工作可以探索更低精度的量化设置,以进一步提高效率。此外,研究可以扩展到其他生成推荐模型,以验证量化技术的普适性。

深度分析

研究背景

量化推理是提高大规模神经网络效率的重要技术,尤其是在大型语言模型中,低精度格式在保持模型质量的同时展示了显著的系统级收益。然而,将低精度量化可靠地应用于推荐系统在工业实践中一直是一个挑战。传统推荐模型通常针对细粒度排序任务进行优化,与大型语言模型在训练范式和架构结构上存在显著差异。这些模型的权重和激活通常表现出高幅度和大方差,使其对量化引起的扰动更为敏感。此外,推荐工作负载往往受到硬件利用率有限的影响,限制了低精度计算的实际收益。近年来,生成推荐模型的进展开始缩小这一差距。OneRec引入了一个统一的生成框架,整合了检索和排序,后续扩展如OneRec-V2通过架构扩展和训练改进进一步完善了这一范式。

核心问题

在推荐系统中应用低精度量化推理一直是一个挑战,传统模型在数值行为和硬件利用率方面存在显著差异,导致低精度计算的实际收益有限。传统推荐模型的权重和激活通常表现出高幅度和大方差,使其对量化引起的扰动更为敏感。此外,推荐工作负载往往受到硬件利用率有限的影响,限制了低精度计算的实际收益。这些数值和系统因素历史上阻碍了低精度推理在传统推荐流水线中的有效部署。

核心创新

本研究的核心创新在于将FP8量化推理成功应用于推荐系统,并证明其在OneRec-V2中的有效性。与传统推荐模型相比,OneRec-V2在数值行为和硬件利用率上的改进,使得低精度计算的应用成为可能。这一创新为推荐系统的优化提供了新的思路。具体而言,研究开发了一种FP8后训练量化框架,结合优化的推理基础设施,实现了显著的延迟减少和吞吐量提升。通过对权重和激活的统计分布进行分析,发现OneRec-V2的数值行为更接近于大型语言模型,推理模式更为计算密集,硬件利用率更高。

方法详解

  • �� 开发了一种FP8后训练量化框架,结合优化的推理基础设施,实现了显著的延迟减少和吞吐量提升。

  • �� 通过对权重和激活的统计分布进行分析,发现OneRec-V2的数值行为更接近于大型语言模型,推理模式更为计算密集,硬件利用率更高。

  • �� 采用后训练量化(PTQ)方法,将低精度计算引入OneRec-V2的推理阶段,而无需修改模型架构或训练过程。量化仅应用于最计算密集的操作符,即线性层(包括注意力中的qkvo投影层和Dense FFN中的线性变换)和Sparse MoE中的分组GEMM操作。其他数值敏感或计算不占主导地位的组件保持其原始精度,以控制潜在的数值风险。

实验设计

实验设计包括对OneRec-V2模型的离线和在线性能评估。离线实验中,系统性能通过端到端延迟和吞吐量来衡量。基线系统在FP16下进行推理,而优化系统则应用后训练量化于计算占主导地位的线性层。在线A/B测试在实际生产环境中进行,以验证低精度推理在推荐质量上的影响。实验结果显示,FP8量化推理在OneRec-V2上实现了49%的端到端推理延迟减少和92%的吞吐量提升。基础设施升级、低精度计算和操作级优化的结合是实现这些改进的关键。

结果分析

实验结果显示,FP8量化推理在OneRec-V2上实现了49%的端到端推理延迟减少和92%的吞吐量提升。基础设施升级、低精度计算和操作级优化的结合是实现这些改进的关键。在线A/B测试进一步证实,FP8推理在核心指标上没有引入任何性能下降。这些结果表明,随着推荐系统向大型语言模型的范式演进,低精度计算技术可以有效适用于大规模推荐工作负载。这不仅在学术界具有重要意义,也为工业界提供了新的优化方向,尤其是在硬件利用率和推理效率方面。

应用场景

本研究的应用场景包括大规模推荐系统的优化,尤其是在硬件利用率和推理效率方面。通过将低精度技术从大型语言模型领域引入到推荐系统中,研究解决了传统推荐模型在数值行为和硬件利用率方面的痛点。这一技术可以直接应用于需要高效推理的推荐系统中,如短视频推荐、个性化广告投放等。

局限与展望

当前研究仅探讨了FP8推理,并未涉及更低精度的设置,如INT8、FP6或FP4。因此,未来工作可以探索更低精度的量化设置,以进一步提高效率。此外,研究可以扩展到其他生成推荐模型,以验证量化技术的普适性。还可以开发更通用的基础设施,以降低对特定硬件和系统的依赖,从而提高方案的可移植性。

通俗解读 非专业人士也能看懂

想象一下,一个工厂需要生产大量的产品。传统的生产线使用高精度的机器来确保每个产品都完美无瑕,但这需要大量的时间和资源。现在,工厂引入了一种新的方法,使用低精度的机器来加速生产。这些机器虽然精度稍低,但在大多数情况下,产品质量仍然可以接受,因为它们专注于关键的生产步骤,而不是每一个细节。这就像在推荐系统中应用低精度量化推理,通过减少计算精度来提高效率,同时确保最终的推荐质量不受影响。通过这种方式,工厂可以在更短的时间内生产出更多的产品,满足市场的需求。同样,推荐系统也可以在更短的时间内处理更多的数据,提供更快的推荐服务。这种方法的关键在于找到精度和效率之间的平衡点,确保在提高效率的同时,产品质量仍然能够满足客户的期望。

简单解释 像给14岁少年讲一样

嘿,小伙伴们!想象一下,你在玩一个超级酷的游戏,你的任务是推荐给朋友们一些他们可能会喜欢的东西。传统上,你可能会花很多时间来确保每个推荐都是完美的,就像用高精度的望远镜去看星星一样。但这次,我们有了一个新的工具,就像是一个快速的显微镜,可以让你更快地找到那些重要的星星!虽然这个显微镜的精度不如望远镜,但它能让你在更短的时间内找到更多的星星,这样你就能更快地完成任务。这个新工具就像是我们在推荐系统中使用的低精度量化技术,它能让系统更快地运行,同时确保推荐的质量不下降。这样一来,你就能在更短的时间内为朋友们推荐更多他们会喜欢的东西,是不是很酷?

术语表

量化推理 (Quantized Inference)

量化推理是一种通过降低数值精度来减少计算和内存成本的技术,通常用于提高大规模神经网络的效率。

在本文中,量化推理用于提高OneRec-V2的推理效率。

FP8

FP8是一种低精度数值格式,使用8位来表示浮点数,能够在保持一定精度的同时大幅减少计算和存储成本。

本文开发了一种FP8后训练量化框架,用于OneRec-V2的推理。

后训练量化 (Post-Training Quantization)

后训练量化是一种在模型训练完成后应用的量化技术,通过降低模型参数和激活的数值精度来提高推理效率。

本文采用后训练量化方法,将低精度计算引入OneRec-V2的推理阶段。

生成推荐 (Generative Recommendation)

生成推荐是一种将推荐任务表述为条件序列生成的范式,通过整合检索和排序来实现端到端优化。

OneRec-V2采用生成推荐范式,提升了推荐系统的效率。

硬件利用率 (Hardware Utilization)

硬件利用率指的是计算资源在执行任务时的使用效率,较高的硬件利用率通常意味着更高的计算效率。

OneRec-V2的推理模式更为计算密集,硬件利用率更高。

线性层 (Linear Layer)

线性层是一种基本的神经网络层,通常用于实现线性变换,如矩阵乘法。

本文中,量化仅应用于最计算密集的操作符,即线性层。

分组GEMM (Grouped GEMM)

分组GEMM是一种矩阵乘法操作,通常用于处理稀疏矩阵,能够提高计算效率。

本文中,分组GEMM操作是量化的重点对象之一。

TensorCore

TensorCore是一种专门用于加速矩阵运算的硬件单元,能够显著提高深度学习模型的计算效率。

本文中使用FP8 TensorCore乘法来提高计算效率。

MoE (Mixture of Experts)

MoE是一种模型架构,通过选择性地激活部分专家网络来提高模型的计算效率。

OneRec-V2采用了MoE架构,提升了推理效率。

A/B测试 (A/B Testing)

A/B测试是一种通过比较两个版本的表现来评估某项改变效果的实验方法,广泛用于产品优化。

本文通过在线A/B测试验证了FP8推理在推荐质量上的影响。

开放问题 这项研究留下的未解疑问

  • 1 当前研究仅探讨了FP8推理,并未涉及更低精度的设置,如INT8、FP6或FP4。因此,未来工作可以探索更低精度的量化设置,以进一步提高效率。
  • 2 解决方案依赖于大量的基础设施支持和系统级定制,可能限制其在缺乏先进推理堆栈或工程资源的生产环境中的可重现性和可移植性。
  • 3 研究仅在OneRec-V2上进行实验,未涵盖更广泛的生成推荐架构,尚不清楚观察到的量化特性和部署收益在不同模型设计中的普适性。
  • 4 尽管研究展示了低精度推理在推荐系统中的有效性,但尚未明确其在其他任务中的适用性,如自然语言处理或计算机视觉。
  • 5 研究中未详细探讨不同量化策略对模型性能的影响,未来工作可以进行更细粒度的分析,以优化量化策略。

应用场景

近期应用

短视频推荐

通过应用低精度量化技术,短视频推荐系统可以在更短的时间内处理更多的数据,提供更快的推荐服务。

个性化广告投放

低精度量化技术可以提高广告推荐系统的效率,使其能够更快地响应用户需求,提高广告投放的精准度。

电商推荐

在电商平台中,低精度量化技术可以提高推荐系统的响应速度,帮助用户更快地找到感兴趣的商品。

远期愿景

跨领域推荐系统

低精度量化技术可以推广到其他领域的推荐系统,如音乐、新闻等,提升整体推荐效率。

智能家居推荐

未来,低精度量化技术可以应用于智能家居设备的推荐系统,提高设备的响应速度和用户体验。

原文摘要

Quantized inference has demonstrated substantial system-level benefits in large language models while preserving model quality. In contrast, reliably applying low-precision quantization to recommender systems remains challenging in industrial settings. This difficulty arises from differences in training paradigms, architectural patterns, and computational characteristics, which lead to distinct numerical behaviors in weights and activations. Traditional recommender models often exhibit high-magnitude and high-variance weights and activations, making them more sensitive to quantization-induced perturbations. In addition, recommendation workloads frequently suffer from limited hardware utilization, limiting the practical gains of low-precision computation. In this work, we revisit low-precision inference in the context of generative recommendation. Through empirical distribution analysis, we show that the weight and activation statistics of OneRec-V2 are significantly more controlled and closer to those of large language models than traditional recommendation models. Moreover, OneRec-V2 exhibits a more compute-intensive inference pattern with substantially higher hardware utilization, enabling more end-to-end throughput gains with low-precision computation. Leveraging this property, we develop a FP8 post training quantization framework and integrate it into an optimized inference infrastructure. The proposed joint optimization achieves a 49\% reduction in end-to-end inference latency and a 92\% increase in throughput. Extensive online A/B testing further confirms that FP8 inference introduces no degradation in core metrics. These results suggest that as recommender systems evolve toward the paradigms of large language models, algorithm-level and system-level optimization techniques established in the LLM domain can be effectively adapted to large-scale recommendation workloads.

cs.IR

参考文献 (16)

A review on deep learning for recommender systems: challenges and remedies

Zeynep Batmaz, Ali Yurekli, Alper Bilge 等

2018 437 引用

TorchRec: a PyTorch Domain Library for Recommendation Systems

Dmytro Ivchenko, Dennis Van Der Staay, Colin Taylor 等

2022 47 引用

Scalable deep learning-based recommendation systems

Hyeungill Lee, Jungwoo Lee

2019 39 引用

Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference

Benoit Jacob, S. Kligys, Bo Chen 等

2017 3971 引用 查看解读 →

Generative Recommendation: Towards Next-generation Recommender Paradigm

Wenjie Wang, Xinyu Lin, Fuli Feng 等

2023 131 引用 查看解读 →

Deep Learning Recommendation Model for Personalization and Recommendation Systems

M. Naumov, Dheevatsa Mudigere, H. Shi 等

2019 876 引用 查看解读 →

GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers

Elias Frantar, Saleh Ashkboos, T. Hoefler 等

2022 1742 引用 查看解读 →

Training with Low-precision Embedding Tables

Jian Zhang, Jiyan Yang, Hector Yuen

2018 21 引用

A survey on large language models for recommendation

Likang Wu, Zhilan Zheng, Zhaopeng Qiu 等

2023 727 引用 查看解读 →

GPT3.int8(): 8-bit Matrix Multiplication for Transformers at Scale

Tim Dettmers, M. Lewis, Younes Belkada 等

2022 762 引用

OneRec-Think: In-Text Reasoning for Generative Recommendation

Zhanyun Liu, Shiyao Wang, Xing-Yao Wang 等

2025 19 引用 查看解读 →

Integer Quantization for Deep Learning Inference: Principles and Empirical Evaluation

Hao Wu, Patrick Judd, Xiaojie Zhang 等

2020 444 引用 查看解读 →

Is ChatGPT a Good Recommender? A Preliminary Study

Junling Liu, Chaoyong Liu, Renjie Lv 等

2023 367 引用 查看解读 →

Post-training Quantization for Neural Networks with Provable Guarantees

Jinjie Zhang, Yixuan Zhou, Rayan Saab

2022 52 引用 查看解读 →

AWQ: Activation-aware Weight Quantization for On-Device LLM Compression and Acceleration

Ji Lin, Jiaming Tang, Haotian Tang 等

2023 1138 引用 查看解读 →

Mixed Precision Training

P. Micikevicius, Sharan Narang, Jonah Alben 等

2017 2233 引用 查看解读 →