Paper Digest: Unified Low-rank Compression for CTR

Unified Low-rank Compression Framework for Click-through Rate Prediction

KDD 2024

Authors: Hui Yu, ..., Jiandong Ding, et al.

💡 针对工业级推荐系统庞大的 Embedding 内存瓶颈，提出了一种统一的低秩压缩框架。在不损失特征交叉表达能力的前提下，将 CTR 模型的体积压缩至极小，成功解锁了资源受限环境（如端侧手机）下的高性能排序能力。

🚨 1. The Problem: 推荐模型的内存刺客

在工业级点击率（CTR）预测中，为了捕捉极其稀疏的用户与物品特征，模型通常依赖于极其庞大的 Embedding Tables（嵌入表）。

核心痛点：无法下放的云端巨兽
这些 Embedding 表往往占用数十甚至上百 GB 的内存，成为了阻碍 CTR 模型向边缘设备（如手机端侧计算）部署的“内存墙”。传统的剪枝（Pruning）或量化（Quantization）方法过于粗暴，极易破坏细粒度的特征交叉（Feature Interactions）信息，导致核心指标 AUC 严重掉点。

🚀 2. The Breakthrough: 统一低秩分解架构

我们跳出了稀疏剪枝的传统路线，提出了一种优雅的数学解法——Unified Low-rank Compression (统一低秩压缩)：

动态秩分配 (Dynamic Rank Allocation): 并非所有特征都同等重要。框架能够根据特征的频次和重要性，自适应地为不同的 Embedding 矩阵分配最优的“秩（Rank）”，将庞大的高维稀疏矩阵分解为两个极小的高密矩阵的乘积。
端到端统一优化: 将压缩过程与 CTR 预测任务统一到一个端到端的损失函数中进行联合训练，确保在压缩过程中最大程度保留对目标任务最关键的特征交互模式。

📈 3. Key Results: 业务与实验价值

破局“端云协同”的物理限制：
该框架在多个亿级真实工业数据集上证明，能够将模型尺寸缩减 80% 以上，同时保持甚至微幅超越原始全尺寸模型的 AUC 和 Logloss 表现。这为下一代“端云协同推荐”提供了最坚实的底层工程基础。

🔗 4. Resources

📄 Paper PDF: ACM Digital Library

Jiandong Ding (丁建栋)