基于注意力机制语谱图特征提取的语音识别

姜囡, 庞永恒, 高爽

PDF(2622 KB)
PDF(2622 KB)
吉林大学学报(理学版) ›› 2024, Vol. 62 ›› Issue (02) : 320-330. DOI: 10.13413/j.cnki.jdxblxb.2023080

基于注意力机制语谱图特征提取的语音识别

  • 姜囡, 庞永恒, 高爽
作者信息 +
History +

摘要

针对连接时序分类模型需具有输出独立性的假设,对语言模型的依赖性强且训练周期长的问题,提出一种基于连接时序分类模型的语音识别方法.首先,基于传统声学模型的框架,利用先验知识训练基于注意力机制的语谱图特征提取网络,有效提高了语音特征的区分性和鲁棒性;其次,将语谱图特征提取网络拼接在连接时序分类模型的前端,并减少模型中循环神经网络层数进行重新训练.测试分析结果表明,该改进模型缩短了训练时间,有效提升了语音识别准确率.

关键词

语音识别 / CTC模型 / 循环神经网络 / 注意力机制

中图分类号

TN912.34 / TP18

引用本文

导出引用
姜囡, 庞永恒, 高爽. 基于注意力机制语谱图特征提取的语音识别. 吉林大学学报(理学版). 2024, 62(02): 320-330 https://doi.org/10.13413/j.cnki.jdxblxb.2023080

基金

教育部重点研究项目(批准号:E-AQGABQ20202710); 辽宁省自然科学基金(批准号:2019-ZD-0168); 辽宁省科技厅联合开放基金机器人学国家重点实验室开放基金(批准号:2020-KF-12-11); 中国刑事警察学院重大计划培育项目(批准号:3242019010); 公安学科基础理论研究创新计划项目(批准号:2022XKGJ0110); 证据科学教育部重点实验室(中国政法大学)开放基金(批准号:2021KFKT09)

评论

PDF(2622 KB)

Accesses

Citation

Detail

段落导航
相关文章

/