面向中文临床术语标准化的ESim-Sim CSE融合算法

曹天甲, 程龙龙, 李世锋, 曹琉, 崔丙剑, 倪广健

天津大学学报(自然科学与工程技术版) ›› 2024, Vol. 57 ›› Issue (07) : 751-758.

面向中文临床术语标准化的ESim-Sim CSE融合算法

  • 曹天甲, 程龙龙, 李世锋, 曹琉, 崔丙剑, 倪广健
作者信息 +
History +

摘要

临床术语的不规范性和多样性给临床数据的应用带来了困难和挑战,因此临床术语标准化工作成为一个重要的研究方向.传统机器学习标准化算法无法结合上下文捕获到隐藏的深层语义,随着计算机算力性能的大幅提升及神经网络被广泛应用于医疗信息处理领域,深度学习可以克服传统机器学习方法的缺点,被应用于临床术语标准化工作中.本文基于深度学习神经网络提出一种基于无监督与有监督学习融合的候选集生成方法,把候选集生成问题转换为文本相似度计算问题,运用对比学习,结合无监督学习场景ESimCSE-unsup模型和有监督学习场景SimCSE-sup模型,通过迁移学习将ESimCSE-unsup与SimCSE-sup融合形成ESim-SimCSE模型.选取SimCSEsup、SimCSE-unsup和ESimCSE-unsup3种模型与ESim-SimCSE进行对比.实验结果显示,在CHIP-CDN2019数据集上相同召回范围下,ESim-SimCSE模型均优于其他模型,其中top k=20下,ESim-SimCSE模型计算F1得分为0.889 1,比SimCSE-unsup提高了0.045 9,比ESimCSE-unsup提高了0.017 5,比SimCSE-sup提高了0.010 7.

关键词

临床术语标准化 / 候选集生成 / ESim-SimCSE / SimCSE / ESimCSE / 对比学习

中图分类号

TP18 / TP391.1

引用本文

导出引用
曹天甲, 程龙龙, 李世锋, 曹琉, 崔丙剑, 倪广健. 面向中文临床术语标准化的ESim-Sim CSE融合算法. 天津大学学报(自然科学与工程技术版). 2024, 57(07): 751-758

基金

国家重点研发计划资助项目(2022YFF1202400); 天津市自然科学基金资助项目(20JCZDJC00810)

评论

Accesses

Citation

Detail

段落导航
相关文章

/