音乐多模态数据情感识别方法的研究

韩东红, 孔彦茹, 展艺萌, 刘源

PDF(2466 KB)
PDF(2466 KB)
东北大学学报(自然科学版) ›› 2024, Vol. 45 ›› Issue (06) : 776-785+792.

音乐多模态数据情感识别方法的研究

  • 韩东红, 孔彦茹, 展艺萌, 刘源
作者信息 +
History +

摘要

音乐情感识别研究在音乐智能推荐和音乐可视化等领域有着广阔的应用前景.针对该研究中存在的仅利用低层音频特征进行情感识别时效果有限且可解释性差的问题,首先,构建能够学习音符语义信息的基于乐器数字接口(MIDI)数据的情感识别模型ERMSLM(emotion recognition model based on skip-gram and LSTM using MIDI data),该模型的特征是由基于跳字模型(skip-gram)和长短期记忆(LSTM)网络提取的旋律特征,利用预训练的多层感知机(MLP)提取的调性特征以及手动构建的特征3部分连接而成;其次,构建融合歌词和社交标签的基于文本数据的情感识别模型ERMBT(emotion recognition model based on BERT using text data),其中歌词特征是由基于BERT(bidirectional encoder representations from trans formers)提取的情感特征、利用英文单词情感标准(ANEW)列表所构建的情感词典特征以及歌词的词频—逆文本频率(TF-IDF)特征所组成;最后,围绕MIDI和文本两种数据构建特征级融合和决策级融合两种多模态融合模型.实验结果表明,ERMSLM和ERMBT模型分别可达到56.93%,72.62%的准确率,决策级多模态融合模型效果更优.

关键词

音乐情感识别 / 深度学习 / 多模态 / 长短期记忆

中图分类号

TP18 / TP391.1 / J60-05

引用本文

导出引用
韩东红, 孔彦茹, 展艺萌, 刘源. 音乐多模态数据情感识别方法的研究. 东北大学学报(自然科学版). 2024, 45(06): 776-785+792

基金

国家自然科学基金资助项目(61672144); 国家重点研发计划项目(2019YFB1405302)

评论

PDF(2466 KB)

Accesses

Citation

Detail

段落导航
相关文章

/