一种基于主题模型与迁移学习的文本分类方法

包翔, 汪满容, 刘桂锋

PDF(1320 KB)
PDF(1320 KB)
山东科技大学学报(自然科学版) ›› 2021, Vol. 40 ›› Issue (03) : 80-88. DOI: 10.16452/j.cnki.sdkjzk.2021.03.010

一种基于主题模型与迁移学习的文本分类方法

  • 包翔, 汪满容, 刘桂锋
作者信息 +
History +

摘要

为了消除传统机器学习中分类方法的限制,提出一种基于主题模型与迁移学习的文本分类方法。将文本集合成由共同主题和特定主题所联合起来的混合模型;然后,通过这两类主题相关性推断出不同领域之间主题的映射关系;最后,融合共同主题以及映射后的特定主题形成一个新的特征空间,并在此特征空间中完成文本的分类。实验结果表明,相较于其他分类方法,本方法在国外的20newsgroups数据以及自建的中国专利数据集上能更加高效准确地预测未标记文本的类别,为文本挖掘领域相关方向的研究提供新的视角。

关键词

文本分类 / 主题模型 / 迁移学习 / 源领域 / 目标领域

中图分类号

TP391.1 / TP181

引用本文

导出引用
包翔, 汪满容, 刘桂锋. 一种基于主题模型与迁移学习的文本分类方法. 山东科技大学学报(自然科学版). 2021, 40(03): 80-88 https://doi.org/10.16452/j.cnki.sdkjzk.2021.03.010

基金

江苏省高校自然科学研究项目(19KJB520005); 江苏省高校哲学社会科学研究项目(2019SJA1870)

评论

PDF(1320 KB)

Accesses

Citation

Detail

段落导航
相关文章

/