EPiDA: An Easy Plug-in Data Augmentation Framework for High Performance Text Classification
NAACL 2022

Authors: M. Zhao, ..., Jiandong Ding, et al.
💡 提出 EPiDA 即插即用数据增强框架,无需修改原有模型架构或流水线,即可在低资源场景下显著提升文本分类的精度与鲁棒性。
🚨 1. The Problem: 数据增强的“落地阻力”

在垂直业务落地时,高质量标注数据往往极其匮乏。为了提升泛化能力,工程师不得不使用数据增强(Data Augmentation)技术。

核心痛点:高侵入性与语义破坏
现有的增强方法(如回译、同义词替换、对抗扰动)要么破坏了原始句子的核心语义结构,要么需要对特定的模型架构和训练 Loss 引擎进行极其复杂的定制化修改。这种“高侵入性”导致前沿的数据增强算法很难在标准的工业生产流水线中规模化推广。
🚀 2. The Breakthrough: 无痛注入增广样本

我们设计了 EPiDA (Easy Plug-in Data Augmentation),一个极其优雅的解耦框架:

  • 隐空间特征插值: 放弃了在文本层面上粗暴替换单词,转而在模型的深层隐特征空间(Latent Space)中进行平滑插值与重构,确保生成的虚拟样本既具有多样性,又严格保持原有的类别语义不变。
  • 真正的即插即用: EPiDA 作为一个独立的模块,完全不依赖于主任务模型的具体结构(无论是 CNN、RNN 还是 BERT)。只需将其作为一个外置的“数据供给泵”接入训练流程,即可源源不断地输送高质量的增广特征。
📈 3. Key Results: 业务与实验价值
小样本场景下的性能放大器:
在多个标准的 NLP 分类基准上,EPiDA 以极小幅度的额外计算开销,带来了显著的绝对精度提升。尤其在 Few-shot(少样本)极限场景下,其带来的收益远超传统的离线数据增强基线,成为了极具工业实用价值的算法套件。