图像情感信息增强的视觉问答模型

蔡锦, 蔡国永

桂林电子科技大学学报 ›› 2025, Vol. 45 ›› Issue (01) : 20-26. DOI: 10.16725/j.1673-808X.202319

图像情感信息增强的视觉问答模型

  • 蔡锦, 蔡国永
作者信息 +
History +

摘要

视觉问答是指给定一张图像和与该图像内容相关的自然语言问题,并让计算机做出正确回答的多媒体理解任务。早期的视觉问答模型往往忽略了图像中的情感信息,使得其在回答与情感相关的问题时表现不足;另一方面,现有的融合情感信息的视觉问答模型对图像关键区域和文本关键词的利用不充分,对细粒度的问题理解不深入,导致回答的准确率总体偏低。为了在视觉问答模型中充分融入图像情感信息,同时利用这些情感信息来增强模型回答问题的能力,提出了一种使用图像情感信息增强的视觉问答模型(IEVQA)。该模型在大规模预训练模型的基础框架上,使用一个情感模块来增强模型回答情感相关问题的能力,并在视觉问答基准数据集上进行了实验。实验结果表明,IEVQA模型在综合指标上比其他对比方法表现更好,同时验证了使用情感信息辅助视觉问答模型的有效性。

关键词

视觉问答 / 自然语言 / 多媒体理解 / 情感 / 细粒度

中图分类号

TP391.41

引用本文

导出引用
蔡锦, 蔡国永. 图像情感信息增强的视觉问答模型. 桂林电子科技大学学报. 2025, 45(01): 20-26 https://doi.org/10.16725/j.1673-808X.202319

基金

国家自然科学基金(61763007); 广西研究生教育创新计划(YCSW2022285); 广西可信软件重点实验室基金(kx202060)

评论

Accesses

Citation

Detail

段落导航
相关文章

/