图像情感信息增强的视觉问答模型

doi:10.16725/j.1673-808X.202319

桂林电子科技大学学报 ›› 2025, Vol. 45 ›› Issue (01) : 20-26. DOI: 10.16725/j.1673-808X.202319

图像情感信息增强的视觉问答模型

蔡锦, 蔡国永

作者信息 +

History +

摘要

视觉问答是指给定一张图像和与该图像内容相关的自然语言问题，并让计算机做出正确回答的多媒体理解任务。早期的视觉问答模型往往忽略了图像中的情感信息，使得其在回答与情感相关的问题时表现不足；另一方面，现有的融合情感信息的视觉问答模型对图像关键区域和文本关键词的利用不充分，对细粒度的问题理解不深入，导致回答的准确率总体偏低。为了在视觉问答模型中充分融入图像情感信息，同时利用这些情感信息来增强模型回答问题的能力，提出了一种使用图像情感信息增强的视觉问答模型（IEVQA）。该模型在大规模预训练模型的基础框架上，使用一个情感模块来增强模型回答情感相关问题的能力，并在视觉问答基准数据集上进行了实验。实验结果表明，IEVQA模型在综合指标上比其他对比方法表现更好，同时验证了使用情感信息辅助视觉问答模型的有效性。