中文文本去毒任务的研究

刘江盛, 左家莉, 胡玉婷, 万剑怡, 王明文

PDF(1745 KB)
PDF(1745 KB)
山西大学学报(自然科学版) ›› 2024, Vol. 47 ›› Issue (03) : 528-538. DOI: 10.13451/j.sxu.ns.2024001

中文文本去毒任务的研究

  • 刘江盛, 左家莉, 胡玉婷, 万剑怡, 王明文
作者信息 +
History +

摘要

文章旨在研究如何有效去除中文文本的毒性。针对此任务,文章重构了一个中文毒性语料集,以此作为任务研究的数据基础。基于此数据集文章探究了文本的毒性表现形式,同时对特定类别的毒性文本成因展开了分析。基于上述分析结果,文章使用基于编辑式、生成式两类文本风格迁移模型进行文本去毒,并进一步探究了大语言模型基于不同Prompt时去除文本毒性的表现。据实验结果表明,基于编辑式的模型能有效去除显式毒性文本的毒性,且具有较高的内容保存度,生成式模型生成的文本则有更高的流畅度。基于Prompt的大语言模型在一定程度上可以去除句子毒性,但相较于特定的风格迁移模型而言,小参数大语言模型的去毒能力还有待提高。

关键词

文本风格迁移 / 文本去毒 / 大语言模型

中图分类号

TP391.1

引用本文

导出引用
刘江盛, 左家莉, 胡玉婷, 万剑怡, 王明文. 中文文本去毒任务的研究. 山西大学学报(自然科学版). 2024, 47(03): 528-538 https://doi.org/10.13451/j.sxu.ns.2024001

基金

国家自然科学基金(61866018)

评论

PDF(1745 KB)

Accesses

Citation

Detail

段落导航
相关文章

/