基于预处理的DOA估计和基频双输入的语音分割

doi:10.16725/j.1673-808X.202333

桂林电子科技大学学报 ›› 2024, Vol. 44 ›› Issue (04) : 348-354. DOI: 10.16725/j.1673-808X.202333

王玫, 成家礼

作者信息 +

History +

摘要

语音分割是语音分离系统的一个重要组成部分，它在信源估计和多说话人环境中的自动语音识别、多声源目标跟踪等许多应用中都起着重要的作用，重叠语音的分割一直都是这项工作的重点。在实际生活中，室内的麦克风采集的语音信号通常都包含混响和噪声信号，它们使接收信号的语音质量变差，影响了波达方向估计特征的精度，导致多声源重叠语音的分割性能下降。针对现有的多声源分割方法对噪声和混响信号鲁棒性差的问题，提出了一种通过预处理来消除语音信号中的明显异常噪声和混响信号的方法。该方法使用广义旁瓣相消器和维纳滤波器实现的后滤波器相结合对原始语音信号进行处理，消除了混响和噪声信号，使语音质量得到了提高，进而使波达方向特征估计更加准确。最后用多假设跟踪同时跟踪说话人的基频特征和波达方向特征来进行分割，以多声源重叠语音为例，对AMI语料库中的16个会议音频进行了统计与分析，结果表明，与未进行预处理的方法相比，平均命中率（HIT）提高了2.10%。