双通道解码的端到端连续语音识别

doi:10.16725/j.1673-808X.2023223

桂林电子科技大学学报 ›› 2024, Vol. 44 ›› Issue (02) : 167-173. DOI: 10.16725/j.1673-808X.2023223

双通道解码的端到端连续语音识别

朱洋, 曾庆宁, 赵学军

作者信息 +

History +

摘要

在端到端连续语音识别系统中，完全基于自注意力机制的Transformer模型相比传统的混合模型提高了准确率。Conformer模型是在Transformer模型基础上增加一个擅长提取局部特征的卷积模块，将该模型作为整个识别系统的编码器，解码器使用注意力机制，注意力模型只适合短句子识别，并且在数据集存在噪声时会导致网络训练不稳定，添加CTC模型的序列对齐特性辅助训练来帮助模型收敛更快。针对单通道解码可在识别准确率上进一步优化的问题，提出了CTC与Attention双通道解码模型，将双通道解码与单一的CTC解码和单一的Attention解码进行对比验证，结果表明双通道解码在识别性能上提升了1%。针对在噪声环境下识别效果降低的问题，提出对端到端网络添加语言模型的方法。将N-gram语言模型加入网络中进行验证，结果表明在信噪比为10 dB的高噪声环境下，语言模型能够使字错率下降3.5%，提高了语音识别系统的鲁棒性。