基于TextRank算法和相似度的中文文本主题句自动提取

丁海兰, 祁坤钰

吉林大学学报(工学版) ›› 2025, Vol. 55 ›› Issue (03) : 1001-1008. DOI: 10.13229/j.cnki.jdxbgxb.20240121

基于TextRank算法和相似度的中文文本主题句自动提取

  • 丁海兰, 祁坤钰
作者信息 +
History +

摘要

针对不同领域的语义规则和潜在主题结构复杂,导致主题句生成的易扩充性和可移植性不佳、中文文本主题句与中文文本的相似度较低、中文文本的主题句提取冗余度较高的问题,提出了基于TextRank算法和相似度的中文文本主题句自动提取方法。采用双向长短期记忆网络(Bi-LSTM)模型进行中文文本分词,将连续的中文文本切分成独立的词语,通过互信息方法进行中文文本特征,计算特征值,提取任务最相关、最有代表性的特征(如关键词、线索词)。将关键词、线索词作为主题句提取的重要线索和依据,基于TextRank算法和相似度,考虑各项权重和权重系数,完成中文文本主题句自动提取。实验结果表明,本文方法的中文文本主题句自动提取冗余度低,文档的完备性、易扩充性、可移植性均处于良好的状态,且ROUGE-1、ROUGE-2、ROUGE-L结果均较高,可以保证中文文本主题句自动提取效果,应用程度较高。

关键词

中文文本 / TextRank算法 / 互信息 / 主题句提取 / 双向长短期记忆网络

中图分类号

TP391.1

引用本文

导出引用
丁海兰, 祁坤钰. 基于TextRank算法和相似度的中文文本主题句自动提取. 吉林大学学报(工学版). 2025, 55(03): 1001-1008 https://doi.org/10.13229/j.cnki.jdxbgxb.20240121

基金

国家社科基金西部项目(19XZW034); 甘肃省教育厅青年博士基金项目(2021QB-057)

评论

Accesses

Citation

Detail

段落导航
相关文章

/