Paper Digest: Dynamic Heterogeneous Graph
Towards Practical Large-scale Dynamical Heterogeneous Graph Embedding: Cold-start Resilient Recommendation
💡 针对工业界棘手的极度冷启动难题,提出了一种支持十亿级规模、增量更新的动态异构图演化框架,实现了新节点表示的“即插即用”与高精度推荐。
🚨 1. The Problem: 冷启动断崖与全量重训的不可行性
在华为等巨型终端云生态中,系统每天都会涌入数以万计的新用户和新应用/视频。异构图神经网络(HGNN)虽然能很好地融合多模态和多域信息,但在工业落地时面临两大死穴:
核心痛点:结构缺失与算力灾难
1. 冷启动断崖: 新节点(Cold-start Nodes)在初期几乎没有拓扑连接。传统的静态图模型无法为其生成有效的 Embedding,导致对新用户的推荐往往是随机的、毫无转化的。
2. 高昂的更新成本: 面对十亿级节点的网络,一旦拓扑结构发生变化,全量重跑一次 Graph Embedding 需要数天时间,根本无法做到工业界要求的“小时级/分钟级”实时感知。
1. 冷启动断崖: 新节点(Cold-start Nodes)在初期几乎没有拓扑连接。传统的静态图模型无法为其生成有效的 Embedding,导致对新用户的推荐往往是随机的、毫无转化的。
2. 高昂的更新成本: 面对十亿级节点的网络,一旦拓扑结构发生变化,全量重跑一次 Graph Embedding 需要数天时间,根本无法做到工业界要求的“小时级/分钟级”实时感知。
🚀 2. The Breakthrough: 动态演化与增量更新网络
我们跳出了传统静态图学习的框架,设计了一套真正面向工业级 Scale 的动态异构图演化架构:
- 时序感知的消息传递 (Temporal-Aware Message Passing): 我们在边(Edge)的构建中引入了严格的时序信息。模型不仅知道“谁和谁连接”,还能理解“连接发生的时间序列”,从而刻画出图谱的演进方向。
- 冷启动弹性子图机制 (Cold-Start Resilient Subgraphs): 针对新节点,算法会根据其稀疏的初始属性和极少数试探性交互,快速在异构图中匹配出“高潜邻居”。即使拓扑不完整,也能利用丰富的语义信息补全初始 Embedding。
- 极低开销的增量更新 (Incremental Update Strategy): 我们设计了局部的梯度流和状态缓存,使得当新节点或新边加入时,只触发局部计算网络的更新,而无需全图重载。
📈 3. Key Results: 业务与实验价值
重新定义工业级图谱的更新效率:
在亿级节点真实工业数据集上的压测表明,该框架的增量更新速度比传统模型快了数十倍,完美契合实时流处理架构。
在亿级节点真实工业数据集上的压测表明,该框架的增量更新速度比传统模型快了数十倍,完美契合实时流处理架构。
更重要的是,在严苛的 User/Item 极冷启动场景评估中,该模型通过弹性子图技术,大幅拉升了新物品曝光初期的点击率(CTR)与转化率(CVR),真正做到了新数据“进得来、推得准”。
🔗 4. Resources
📄 Paper PDF: arXiv Preprint