Paper Digest: Weakly-supervised Text Classification via Keyword Graph

Weakly-supervised Text Classification Based on Keyword Graph

EMNLP 2021

Authors: L. Zhang, Jiandong Ding, et al.

💡 仅需用户提供极少量领域关键词，即可利用图神经网络自动繁衍出高精度的文本分类器，彻底摆脱工业冷启动时人工逐条标注数据的梦魇。

🚨 1. The Problem: 标注数据的冷启动困局

工业界新业务上线时，获取海量的人工标注句子成本极高、周期极长。业务专家往往只能凭直觉给出几个“标签描述”或“核心关键词”（比如为了区分“体育”和“财经”，给出“篮球”、“股票”）。

核心痛点：稀疏信号的泛化无力
如何将这几个极度稀疏的“领域词”，转化为能够理解复杂上下文的深度学习分类器？传统的弱监督方法缺乏有效的传播机制，遇到未包含这些关键词的文档时，模型往往直接抓瞎。

🚀 2. The Breakthrough: 图结构驱动的弱信号传播

为了将专家的“几个词”泛化为“全局伪标签”，我们构建了 Keyword Graph (关键词图)：

构图与关联挖掘: 我们在庞大的无标签语料库上，基于共现信息和语义相似度构建了复杂的词-词、词-文档异构图。
图神经网络 (GNN) 标签传播: 将初始的几个关键词作为“种子节点”，利用 GNN 在图结构上进行信息的迭代与扩散。这种拓扑传播能够极其敏锐地挖掘出潜在的同义词和上下文关联，自动为海量无标签文档打上高质量的“伪标签（Pseudo-labels）”。

📈 3. Key Results: 业务与实验价值

打破监督学习的成本壁垒：
在几乎不消耗任何“句子级人工标注”的情况下，该模型的分类准确率大幅逼近了需要海量标注数据的全监督模型（Fully-supervised Models），为低成本垂直领域的 NLP 落地提供了一套标准范式。