基于双层数据增强的监督对比学习文本分类模型

吴量, 张方方, 程超, 宋诗楠

PDF(2759 KB)
PDF(2759 KB)
吉林大学学报(理学版) ›› 2024, Vol. 62 ›› Issue (05) : 1179-1187. DOI: 10.13413/j.cnki.jdxblxb.2023330

基于双层数据增强的监督对比学习文本分类模型

  • 吴量, 张方方, 程超, 宋诗楠
作者信息 +
History +

摘要

针对DoubleMix算法在数据增强时的非选择性扩充及训练方式的不足,提出一种基于双层数据增强的监督对比学习文本分类模型,有效提高了在训练数据稀缺时文本分类的准确率.首先,对原始数据在输入层进行基于关键词的数据增强,不考虑句子结构的同时对数据进行有选择增强;其次,在BERT隐藏层对原始数据与增强后的数据进行插值,然后送入TextCNN进一步提取特征;最后,使用Wasserstein距离和双重对比损失对模型进行训练,进而提高文本分类的准确率.对比实验结果表明,该方法在数据集SST-2,CR,TREC和PC上分类准确率分别达93.41%,93.55%,97.61%和95.27%,优于经典算法.

关键词

数据增强 / 文本分类 / 对比学习 / 监督学习

中图分类号

TP391.1 / TP18

引用本文

导出引用
吴量, 张方方, 程超, 宋诗楠. 基于双层数据增强的监督对比学习文本分类模型. 吉林大学学报(理学版). 2024, 62(05): 1179-1187 https://doi.org/10.13413/j.cnki.jdxblxb.2023330

基金

吉林省发展和改革委员会项目(批准号:2022C047-7); 长春市科技发展计划项目(批准号:21GD05)

评论

PDF(2759 KB)

Accesses

Citation

Detail

段落导航
相关文章

/