基于联结主义的视听语音识别方法

车娜, 朱奕明, 赵剑, 孙磊, 史丽娟, 曾现伟

吉林大学学报(工学版) ›› 2024, Vol. 54 ›› Issue (10) : 2984-2993. DOI: 10.13229/j.cnki.jdxbgxb.20240209

基于联结主义的视听语音识别方法

  • 车娜, 朱奕明, 赵剑, 孙磊, 史丽娟, 曾现伟
作者信息 +
History +

摘要

针对视听语音识别技术存在的数据需求量大、音视频数据对齐、噪声鲁棒性等问题,深入分析了联结主义时序分类器、长短期记忆神经网络、Transformer、Conformer四类核心模型的特点与优势,归纳了各模型的适用场景,并提出了优化模型性能的思路和方法。基于主流数据集和常用评价标准,对模型性能进行了量化分析。结果表明:CTC在噪声条件下性能波动较大,LSTM能有效捕捉长时序依赖,Transformer和Conformer在跨模态任务中可显著降低识别错误率。最后,从自监督训练和噪声鲁棒性两个层面,展望了未来的研究方向。

关键词

计算机应用技术 / 视听语音识别 / 深度学习 / 联结主义

中图分类号

TN912.34

引用本文

导出引用
车娜, 朱奕明, 赵剑, 孙磊, 史丽娟, 曾现伟. 基于联结主义的视听语音识别方法. 吉林大学学报(工学版). 2024, 54(10): 2984-2993 https://doi.org/10.13229/j.cnki.jdxbgxb.20240209

基金

吉林省教育厅科技计划重点项目(JJKH20230675KJ); 吉林省特殊教育学会重点项目(JT2022Z001); 横向课题(2022JBH08L15); 吉林省科技厅(YDZJ202303CGZH010,YDZJ202301ZYTS496); 吉林省社会科学研究项目(JJKH20231054SK); 吉林省教育科学“十四五”规划重点课题(ZD21100)

评论

Accesses

Citation

Detail

段落导航
相关文章

/