Paper Digest: Neural Topic Modeling via CycleGAN & Contrastive Learning

Neural Topic Modeling based on Cycle Adversarial Training and Contrastive Learning

ACL 2023

Authors: B. Wang, ..., Jiandong Ding, et al.

💡 结合循环对抗训练与对比学习，攻克了神经主题模型中常见的主题坍缩与语义重叠难题，提取出高内聚、低耦合的高质量工业级文本主题。

🚨 1. The Problem: 主题坍缩与语义混沌

在海量文本挖掘（如舆情分析、用户评论聚类）中，神经主题模型（NTM）是核心工具。然而，现有的 NTM 在面对复杂语料时极易陷入局部最优。

核心痛点：缺乏区分度的主题表达
模型经常遭遇“主题坍缩（Topic Collapse）”——生成的主题词高度雷同，几十个主题翻来覆去都是那几个高频词；或者主题之间的语义边界极其模糊，导致下游的推荐或搜索业务根本无法将这些“混沌”的主题标签直接投入使用。

🚀 2. The Breakthrough: 引入博弈与对比机制

为了强制模型学出具有极强区分度的表征，我们对 NTM 的隐空间结构进行了大刀阔斧的重塑：

循环对抗训练 (Cycle Adversarial Training): 借用 CycleGAN 的思想，在文档到主题的映射（Encoder）与主题重建文档（Decoder）之间建立博弈机制，确保生成的主题分布能够无损且精准地还原原始文档的语义结构。
对比学习 (Contrastive Learning): 在隐空间中强行“拉远”不同主题的距离，“拉近”语义相似的表达。这种互斥性约束直接打破了主题坍缩的魔咒。

📈 3. Key Results: 业务与实验价值

高内聚与低耦合的完美平衡：
在长短文本语料库上，该模型在主题一致性（Coherence）和主题多样性（Diversity）两大核心指标上均实现了 SOTA 表现。生成的主题词不仅人眼可解释性极强，且能直接作为高质量特征喂给下游的推荐链路。