融合机器学习和深度学习的大容量半结构化数据抽取算法

张磊, 焦晶, 李勃昕, 周延杰

吉林大学学报(工学版) ›› 2024, Vol. 54 ›› Issue (09) : 2631-2637. DOI: 10.13229/j.cnki.jdxbgxb.20231214

融合机器学习和深度学习的大容量半结构化数据抽取算法

  • 张磊, 焦晶, 李勃昕, 周延杰
作者信息 +
History +

摘要

由于半结构化数据具有很高的数据异构性,并且数据量巨大,不同来源的数据结构不一致,导致数据抽取的准确性和完整性较低。为此,本文将机器学习和深度学习深度融合,提出一种针对大容量半结构化数据的抽取算法。利用机器学习的主成分分析法,降低大容量半结构化数据的维度。基于深度学习的转换器网络结构,分别改进嵌入层、编码层-解码层和编码层等部分,得到用于识别数据命名实体和抽取数据实体关系的两种数据抽取算法,实现大容量半结构化数据的抽取。经测试结果验证,所提算法的正确抽取成效显著,无效数据项的最小抽取量仅有4个,且抽取复杂度较低,时效价值较高,F值和抽取时间的消融实验结果充分证明,两种技术的融合对数据抽取研究意义重大,F值始终保持在92以上,抽取时间缩短至125ms内,具备较强的可行性,为提升运营效率、优化资源配置提供重要手段。

关键词

半结构化数据 / 机器学习 / 数据容量降维 / 深度学习 / 命名实体识别 / 实体关系抽取

中图分类号

TP311.13 / TP18

引用本文

导出引用
张磊, 焦晶, 李勃昕, 周延杰. 融合机器学习和深度学习的大容量半结构化数据抽取算法. 吉林大学学报(工学版). 2024, 54(09): 2631-2637 https://doi.org/10.13229/j.cnki.jdxbgxb.20231214

基金

中国(西安)丝绸之路研究院纵向项目(2019HZ02);中国(西安)丝绸之路研究院纵向项目(2017SY05); 西安财经大学横向项目(2022250)

评论

Accesses

Citation

Detail

段落导航
相关文章

/