基于双层数据增强的监督对比学习文本分类模型

doi:10.13413/j.cnki.jdxblxb.2023330

PDF(2759 KB)

吉林大学学报(理学版) ›› 2024, Vol. 62 ›› Issue (05) : 1179-1187. DOI: 10.13413/j.cnki.jdxblxb.2023330

基于双层数据增强的监督对比学习文本分类模型

吴量, 张方方, 程超, 宋诗楠

作者信息 +

History +

摘要

针对DoubleMix算法在数据增强时的非选择性扩充及训练方式的不足，提出一种基于双层数据增强的监督对比学习文本分类模型，有效提高了在训练数据稀缺时文本分类的准确率.首先，对原始数据在输入层进行基于关键词的数据增强，不考虑句子结构的同时对数据进行有选择增强；其次，在BERT隐藏层对原始数据与增强后的数据进行插值，然后送入TextCNN进一步提取特征；最后，使用Wasserstein距离和双重对比损失对模型进行训练，进而提高文本分类的准确率.对比实验结果表明，该方法在数据集SST-2,CR,TREC和PC上分类准确率分别达93.41%,93.55%,97.61%和95.27%,优于经典算法.