基于音频匹配的藏语驱动视觉语音合成算法研究

doi:10.19292/j.cnki.jdxxp.2024.03.008

吉林大学学报(信息科学版) ›› 2024, Vol. 42 ›› Issue (03) : 509-515. DOI: 10.19292/j.cnki.jdxxp.2024.03.008

韩西, 梁凯, 岳宇

作者信息 +

History +

摘要

为解决唇部轮廓检测精度较低、视觉语音合成效果不好的问题，提出了基于音频匹配的藏语驱动视觉语音合成算法。该算法从藏语驱动视觉语音信号中提取短时能量和过零率，并建立语音信号的短时自相关函数。首先，提取语音信号中的特征信息，以此获得藏语语音信号的基音轨迹，即音频特征；其次，建立了唇部时空分析模型，分析唇部轮廓在发音过程中变化趋势，采用主成分分析法提取唇部轮廓特征；最后，通过输入输出隐马尔可夫模型获取音频特征与唇部轮廓特征之间的关联，在音频匹配的基础上合成藏语驱动视觉语音。实验结果表明，该方法具有较高的唇部轮廓检测精度，视觉语音合成效果较好。