Paper Digest: Weakly-supervised Text Classification via Keyword Graph
Weakly-supervised Text Classification Based on Keyword Graph
💡 仅需用户提供极少量领域关键词,即可利用图神经网络自动繁衍出高精度的文本分类器,彻底摆脱工业冷启动时人工逐条标注数据的梦魇。
🚨 1. The Problem: 标注数据的冷启动困局
工业界新业务上线时,获取海量的人工标注句子成本极高、周期极长。业务专家往往只能凭直觉给出几个“标签描述”或“核心关键词”(比如为了区分“体育”和“财经”,给出“篮球”、“股票”)。
核心痛点:稀疏信号的泛化无力
如何将这几个极度稀疏的“领域词”,转化为能够理解复杂上下文的深度学习分类器?传统的弱监督方法缺乏有效的传播机制,遇到未包含这些关键词的文档时,模型往往直接抓瞎。
如何将这几个极度稀疏的“领域词”,转化为能够理解复杂上下文的深度学习分类器?传统的弱监督方法缺乏有效的传播机制,遇到未包含这些关键词的文档时,模型往往直接抓瞎。
🚀 2. The Breakthrough: 图结构驱动的弱信号传播
为了将专家的“几个词”泛化为“全局伪标签”,我们构建了 Keyword Graph (关键词图):
- 构图与关联挖掘: 我们在庞大的无标签语料库上,基于共现信息和语义相似度构建了复杂的词-词、词-文档异构图。
- 图神经网络 (GNN) 标签传播: 将初始的几个关键词作为“种子节点”,利用 GNN 在图结构上进行信息的迭代与扩散。这种拓扑传播能够极其敏锐地挖掘出潜在的同义词和上下文关联,自动为海量无标签文档打上高质量的“伪标签(Pseudo-labels)”。
📈 3. Key Results: 业务与实验价值
打破监督学习的成本壁垒:
在几乎不消耗任何“句子级人工标注”的情况下,该模型的分类准确率大幅逼近了需要海量标注数据的全监督模型(Fully-supervised Models),为低成本垂直领域的 NLP 落地提供了一套标准范式。
在几乎不消耗任何“句子级人工标注”的情况下,该模型的分类准确率大幅逼近了需要海量标注数据的全监督模型(Fully-supervised Models),为低成本垂直领域的 NLP 落地提供了一套标准范式。