基于RBAC模型的中文医疗命名实体识别

张斌, 赵婷婷, 张碧霞, 陈亚瑞, 王嫄

PDF(804 KB)
PDF(804 KB)
天津科技大学学报 ›› 2024, Vol. 39 ›› Issue (05) : 56-62. DOI: 10.13364/j.issn.1672-6510.20230180

基于RBAC模型的中文医疗命名实体识别

  • 张斌, 赵婷婷, 张碧霞, 陈亚瑞, 王嫄
作者信息 +
History +

摘要

中文医疗命名实体识别旨在从非结构化数据中抽取结构化实体,目前的主流研究都使用了大量的训练数据。针对中文医疗命名实体识别训练数据匮乏的问题,提出了基于联合分词的RBAC(RoBERTa-BiGRU-Attention-CRF)模型和基于语义搜索的命名实体识别数据增强方法。首先利用预训练模型和双向门控循环单元(BiGRU)提取文本的深度双向语义表示,再将该语义表示分别送入分词模块和命名实体识别模块。分词模块利用条件随机场(CRF)得到分词信息。命名实体识别模块利用BiGRU与多头注意力得到混合语义表示,再送入CRF得到命名实体识别的标签序列。在CCKS2019中文电子病历数据集上的实验结果表明,该方法在数据量较少的情况下F1达到90.5%,证明了该方法的有效性。

关键词

多任务学习 / 预训练模型 / 双向门控循环单元 / 多头注意力 / 条件随机场 / 数据增强

中图分类号

R-05 / TP391.1

引用本文

导出引用
张斌, 赵婷婷, 张碧霞, 陈亚瑞, 王嫄. 基于RBAC模型的中文医疗命名实体识别. 天津科技大学学报. 2024, 39(05): 56-62 https://doi.org/10.13364/j.issn.1672-6510.20230180

基金

国家自然科学基金项目(61976156); 天津市企业科技特派员项目(20YDTPJC00560)

评论

PDF(804 KB)

Accesses

Citation

Detail

段落导航
相关文章

/