基于实例的词性标注数据错误检测

崔秀莲, 严福康, 李正华

PDF(1378 KB)
PDF(1378 KB)
山西大学学报(自然科学版) ›› 2024, Vol. 47 ›› Issue (02) : 251-259. DOI: 10.13451/j.sxu.ns.2023166

基于实例的词性标注数据错误检测

  • 崔秀莲, 严福康, 李正华
作者信息 +
History +

摘要

由于深度学习框架在可解释性上的缺乏,本文将基于实例的方法首次应用到词性标注数据错误检测任务,旨在充分利用模型学到的实例之间的相似度信息。首先,本文基于预训练语言模型,实现了基于实例的词性标注模型,在CTB7数据集上的预测准确率和基于标准分类器的模型相当,达96.76%。进而,本文提出了一种基于实例的标注错误检测方法。为了获得真实检错数据集,本文采用不同方法对CTB7测试集进行自动错误检测,并人工标注候选错误,最终获得2 016个真实标注错误,约占所有8万多词中的2.5%。检错数据集上的实验表明,基于实例的方法的检错准确率达41.48%。

关键词

词性分类 / 标注错误数据集 / 语义相似度 / CTB7数据集

中图分类号

TP391.1 / TP18

引用本文

导出引用
崔秀莲, 严福康, 李正华. 基于实例的词性标注数据错误检测. 山西大学学报(自然科学版). 2024, 47(02): 251-259 https://doi.org/10.13451/j.sxu.ns.2023166

基金

国家自然科学基金(62176173); 江苏高校优势学科建设工程资助项目

评论

PDF(1378 KB)

Accesses

Citation

Detail

段落导航
相关文章

/