基于音频匹配的藏语驱动视觉语音合成算法研究

韩西, 梁凯, 岳宇

吉林大学学报(信息科学版) ›› 2024, Vol. 42 ›› Issue (03) : 509-515. DOI: 10.19292/j.cnki.jdxxp.2024.03.008

基于音频匹配的藏语驱动视觉语音合成算法研究

  • 韩西, 梁凯, 岳宇
作者信息 +
History +

摘要

为解决唇部轮廓检测精度较低、视觉语音合成效果不好的问题,提出了基于音频匹配的藏语驱动视觉语音合成算法。该算法从藏语驱动视觉语音信号中提取短时能量和过零率,并建立语音信号的短时自相关函数。首先,提取语音信号中的特征信息,以此获得藏语语音信号的基音轨迹,即音频特征;其次,建立了唇部时空分析模型,分析唇部轮廓在发音过程中变化趋势,采用主成分分析法提取唇部轮廓特征;最后,通过输入输出隐马尔可夫模型获取音频特征与唇部轮廓特征之间的关联,在音频匹配的基础上合成藏语驱动视觉语音。实验结果表明,该方法具有较高的唇部轮廓检测精度,视觉语音合成效果较好。

关键词

音频匹配 / 短时自相关函数 / 时空分析模型 / 主成分分析法 / 视觉语音合成

中图分类号

TN912.33

引用本文

导出引用
韩西, 梁凯, 岳宇. 基于音频匹配的藏语驱动视觉语音合成算法研究. 吉林大学学报(信息科学版). 2024, 42(03): 509-515 https://doi.org/10.19292/j.cnki.jdxxp.2024.03.008

基金

四川省科技计划基金资助项目(2021YFG0138)

评论

Accesses

Citation

Detail

段落导航
相关文章

/