Unified Low-rank Compression Framework for Click-through Rate Prediction
KDD 2024

Authors: Hui Yu, ..., Jiandong Ding, et al.
💡 针对工业级推荐系统庞大的 Embedding 内存瓶颈,提出了一种统一的低秩压缩框架。在不损失特征交叉表达能力的前提下,将 CTR 模型的体积压缩至极小,成功解锁了资源受限环境(如端侧手机)下的高性能排序能力。
🚨 1. The Problem: 推荐模型的内存刺客

在工业级点击率(CTR)预测中,为了捕捉极其稀疏的用户与物品特征,模型通常依赖于极其庞大的 Embedding Tables(嵌入表)。

核心痛点:无法下放的云端巨兽
这些 Embedding 表往往占用数十甚至上百 GB 的内存,成为了阻碍 CTR 模型向边缘设备(如手机端侧计算)部署的“内存墙”。传统的剪枝(Pruning)或量化(Quantization)方法过于粗暴,极易破坏细粒度的特征交叉(Feature Interactions)信息,导致核心指标 AUC 严重掉点。
🚀 2. The Breakthrough: 统一低秩分解架构

我们跳出了稀疏剪枝的传统路线,提出了一种优雅的数学解法——Unified Low-rank Compression (统一低秩压缩)

  • 动态秩分配 (Dynamic Rank Allocation): 并非所有特征都同等重要。框架能够根据特征的频次和重要性,自适应地为不同的 Embedding 矩阵分配最优的“秩(Rank)”,将庞大的高维稀疏矩阵分解为两个极小的高密矩阵的乘积。
  • 端到端统一优化: 将压缩过程与 CTR 预测任务统一到一个端到端的损失函数中进行联合训练,确保在压缩过程中最大程度保留对目标任务最关键的特征交互模式。
📈 3. Key Results: 业务与实验价值
破局“端云协同”的物理限制:
该框架在多个亿级真实工业数据集上证明,能够将模型尺寸缩减 80% 以上,同时保持甚至微幅超越原始全尺寸模型的 AUC 和 Logloss 表现。这为下一代“端云协同推荐”提供了最坚实的底层工程基础。
🔗 4. Resources

📄 Paper PDF: ACM Digital Library