基于深度学习和主题模型的短文本分类方法

王青松, 聂振业, 周芳晔

辽宁大学学报(自然科学版) ›› 2022, Vol. 49 ›› Issue (02) : 116-124. DOI: 10.16197/j.cnki.lnunse.2022.02.001

基于深度学习和主题模型的短文本分类方法

  • 王青松, 聂振业, 周芳晔
作者信息 +
History +

摘要

为了解决短文本的语义稀疏和特征信息难以提取问题,本文提出了一种基于深度学习的短文本分类方法.首先通过增加自注意机制的双向BiLSTM通道获取短文本特征词向量,引入外部CN-DBpedia知识库KBs来深度挖掘短文本语义,解决语义稀疏问题.其次通过BTM主题模型在短文本数据集上提取主体信息,为了得到准确的词向量拼接引入了超参数δ.最终将所得的特征词向量以及知识向量运用语义余弦相似度计算并拼接向量,将得到的拼接结果与主题信息通过Softmax分类器中进行分类.在中国微博情感分析数据集、产品评价数据集、中文新闻标题数据集、Sogou新闻数据集上进行实验.与TextCNN、TextRNN、TextRNN_Att、BiLSTM-MP、KPCNN算法相比,分类准确性有一定提高.

关键词

短文本分类 / 注意力机制 / 外部知识库 / BTM主题模型 / 语义余弦相似度

中图分类号

TP391.1 / TP18

引用本文

导出引用
王青松, 聂振业, 周芳晔. 基于深度学习和主题模型的短文本分类方法. 辽宁大学学报(自然科学版). 2022, 49(02): 116-124 https://doi.org/10.16197/j.cnki.lnunse.2022.02.001

基金

国家自然科学基金项目(61802160)

评论

Accesses

Citation

Detail

段落导航
相关文章

/