双通道解码的端到端连续语音识别

朱洋, 曾庆宁, 赵学军

桂林电子科技大学学报 ›› 2024, Vol. 44 ›› Issue (02) : 167-173. DOI: 10.16725/j.1673-808X.2023223

双通道解码的端到端连续语音识别

  • 朱洋, 曾庆宁, 赵学军
作者信息 +
History +

摘要

在端到端连续语音识别系统中,完全基于自注意力机制的Transformer模型相比传统的混合模型提高了准确率。Conformer模型是在Transformer模型基础上增加一个擅长提取局部特征的卷积模块,将该模型作为整个识别系统的编码器,解码器使用注意力机制,注意力模型只适合短句子识别,并且在数据集存在噪声时会导致网络训练不稳定,添加CTC模型的序列对齐特性辅助训练来帮助模型收敛更快。针对单通道解码可在识别准确率上进一步优化的问题,提出了CTC与Attention双通道解码模型,将双通道解码与单一的CTC解码和单一的Attention解码进行对比验证,结果表明双通道解码在识别性能上提升了1%。针对在噪声环境下识别效果降低的问题,提出对端到端网络添加语言模型的方法。将N-gram语言模型加入网络中进行验证,结果表明在信噪比为10 dB的高噪声环境下,语言模型能够使字错率下降3.5%,提高了语音识别系统的鲁棒性。

关键词

语音识别 / 编码器 / 解码器 / 端到端 / 双通道 / 语言模型

中图分类号

TN912.34

引用本文

导出引用
朱洋, 曾庆宁, 赵学军. 双通道解码的端到端连续语音识别. 桂林电子科技大学学报. 2024, 44(02): 167-173 https://doi.org/10.16725/j.1673-808X.2023223

基金

国家自然科学基金(61961009); 广西无线宽带通信与信号处理重点实验室基金(GXKL06200107); 桂林电子科技大学研究生教育创新计划(2022YCXS042)

评论

Accesses

Citation

Detail

段落导航
相关文章

/