基于交替语言数据重构方法的跨语言文本相似度模型

王轶, 王坤宁, 刘铭

PDF(1455 KB)
PDF(1455 KB)
吉林大学学报(理学版) ›› 2025, Vol. 63 ›› Issue (02) : 551-558. DOI: 10.13413/j.cnki.jdxblxb.2024078

基于交替语言数据重构方法的跨语言文本相似度模型

  • 王轶, 王坤宁, 刘铭
作者信息 +
History +

摘要

针对现有多语言模型在预训练过程中对多语言数据集的利用效率低,导致跨语言上下文学习能力不足,进而产生语言偏差的问题,提出一种基于交替语言数据重构方法的跨语言文本相似度模型.该方法通过对称地替换平行语料中的中英文词语,形成重构的预训练文本对,并利用上述文本对对多语言大模型mBERT(BERT-based-multilingual)进行基于数据重构的针对性预训练和微调处理.为验证该模型的可行性,在联合国平行语料数据集上进行实验,实验结果表明,该模型的相似度查准率优于mBERT和其他两种基线模型,其不仅可以进一步提高跨语言信息检索的准确性,并且可以降低多语言自然语言处理任务的研究成本.

关键词

mBERT模型 / 文本相似度 / 多语言预训练模型 / 大模型微调

中图分类号

TP391.1

引用本文

导出引用
王轶, 王坤宁, 刘铭. 基于交替语言数据重构方法的跨语言文本相似度模型. 吉林大学学报(理学版). 2025, 63(02): 551-558 https://doi.org/10.13413/j.cnki.jdxblxb.2024078

基金

吉林省高等教育教学改革研究课题项目(批准号:20213F2VB6S006); 吉林省发改委基本建设基金(批准号:2022C043-2); 吉林省自然科学基金(批准号:20200201157JC); 吉林省教育厅人文社科研究项目(批准号:JJKH20240835SK); 吉林省高教科研课题项目(批准号:JGJX24C051)

评论

PDF(1455 KB)

Accesses

Citation

Detail

段落导航
相关文章

/