基于带阈值的BPE-dropout多任务学习的端到端语音识别

马建, 朵琳, 韦贵香, 唐剑

PDF(2604 KB)
PDF(2604 KB)
吉林大学学报(理学版) ›› 2024, Vol. 62 ›› Issue (03) : 674-682. DOI: 10.13413/j.cnki.jdxblxb.2023252

基于带阈值的BPE-dropout多任务学习的端到端语音识别

  • 马建, 朵琳, 韦贵香, 唐剑
作者信息 +
History +

摘要

针对语音识别任务中出现的未登录词问题,提出一种带阈值的BPE-dropout多任务学习语音识别方法.该方法采用带随机性的字节对编码算法,在形成子词时引入带字数阈值的策略,将子词作为建模单元,编码器部分采用Conformer结构,与链接时序分类和注意力机制相结合.为进一步提升模型性能,引入动态参数对损失函数进行动态调节,并同时进行多任务训练和解码.实验结果表明,该方法采用子词作为建模单元可有效解决未登录词问题,在多任务学习框架下进一步提升了模型的识别性能.在公开数据集THCHS30和ST-CMDS上,该模型实现了超过95%的识别准确率.

关键词

语音识别 / 多任务学习 / 字节对编码 / 动态调节参数

中图分类号

TN912.34

引用本文

导出引用
马建, 朵琳, 韦贵香, 唐剑. 基于带阈值的BPE-dropout多任务学习的端到端语音识别. 吉林大学学报(理学版). 2024, 62(03): 674-682 https://doi.org/10.13413/j.cnki.jdxblxb.2023252

基金

国家自然科学基金(批准号:61962032)

评论

PDF(2604 KB)

Accesses

Citation

Detail

段落导航
相关文章

/