Paper Digest: RPE4Rec
RPE4Rec: Enhancing Dynamic Node Retrieval with Efficient Relative Position Encoding
💡 提出了一种专为动态节点检索设计的相对位置编码(RPE)架构。在保持 SOTA 推荐精度的同时,彻底摆脱了重度 Transformer 带来的延迟瓶颈,实现了十亿级图谱上的亚毫秒级实时检索。
🚨 1. The Problem: 工业界的真实痛点
在真实的工业级推荐系统(如应用市场、流媒体视频)中,用户兴趣和物品的热度都是动态演进(Dynamically Evolving)的。为了捕捉这种时序与结构的动态变化,学术界通常使用基于 Transformer 或动态图神经网络(DGNN)的重型序列模型。
致命瓶颈:在线推理延迟 (Inference Latency)
传统的自注意力机制(Self-Attention)带来了 $O(N^2)$ 的计算复杂度。当我们在端侧或资源受限的云端面对十亿级(Billion-scale)的候选物品进行实时召回(Retrieval)时,这些重型序列模型根本无法满足工业界极其严苛的 P99 延迟要求(通常需小于 10ms)。
传统的自注意力机制(Self-Attention)带来了 $O(N^2)$ 的计算复杂度。当我们在端侧或资源受限的云端面对十亿级(Billion-scale)的候选物品进行实时召回(Retrieval)时,这些重型序列模型根本无法满足工业界极其严苛的 P99 延迟要求(通常需小于 10ms)。
🚀 2. The Breakthrough: 核心架构创新
为了打破“精度与速度”的零和博弈,我们转变了思路:放弃绝对时间状态的重度计算,转而对“相对动态模式”进行极其轻量化的编码。
Figure 1: The architecture of RPE4Rec, decoupling heavy sequence modeling from online serving.
- Efficient Relative Position Encoding (高效相对位置编码): 我们设计了一种全新的 RPE 机制。它无需在在线推理时计算复杂的全连接注意力图,而是通过相对位置感知,将复杂的节点动态演化历史直接“压缩”到固定的向量空间中。
- Dynamic Node Retrieval (动态节点解耦检索): 通过这种编码,用户和物品被安全地投影到一个统一的表征空间。线上服务时,只需通过高效的近似最近邻搜索框架(如 HNSW/Faiss),即可完成亚毫秒级的最大内积搜索(MIPS)。
📈 3. Key Results: 业务与实验价值
极致效率与性能双赢 (Extreme Efficiency at Scale):
在基准测试中,RPE4Rec 的在线推理吞吐量(Throughput)和延迟(Latency)均实现了数量级的飞跃,使其成为少数真正能直接部署在工业界极大规模推荐系统中的动态图架构之一。
在基准测试中,RPE4Rec 的在线推理吞吐量(Throughput)和延迟(Latency)均实现了数量级的飞跃,使其成为少数真正能直接部署在工业界极大规模推荐系统中的动态图架构之一。
同时,在多个真实世界数据集上,RPE4Rec 的推荐准确率(如 HR@10, NDCG@10)并没有因为模型的“轻量化”而妥协,反而稳定超越了现有的高复杂度序列模型和动态图基线模型。
🔗 4. Resources
📄 Paper PDF: ACM Digital Library