基于场景中物体位置关系的图像描述方法

杨璐, 钱艺, 文益民

桂林电子科技大学学报 ›› 2024, Vol. 44 ›› Issue (06) : 560-567. DOI: 10.16725/j.1673-808X.202360

基于场景中物体位置关系的图像描述方法

  • 杨璐, 钱艺, 文益民
作者信息 +
History +

摘要

图像描述旨在将图像内容转化为语言表述,是一个亟待解决且具有挑战性的多模态生成任务。然而,现有方法缺少对图像中隐含位置信息的关注,导致物体位置关系难以得到准确描述。为解决该问题,提出一种基于场景中物体位置关系的图像描述方法。首先,使用图节点特征构建物体关系场景图,随后利用位置关系编码器对节点特征进行初次编码。其次,提出常识词典与推理模块,计算物体间比例失衡程度,根据该程度值对物体关系节点进行二次编码。再次,设计联合解码器对已编码信息进行处理,通过擦除模块和偏置门控机制进一步优化图中的节点特征。最后,生成该图像对应的文字描述。提出的方法在2个公开数据集MSCOCO、Visual Genome上进行实验验证,在各项评价指标上比现有方法均有提升,并在CIDEr指标上取得显著效果。该方法源码可在https://gitee.com/ymw12345/PRCO获取。

关键词

图像描述 / 图卷积网络 / 长短期记忆网络 / 位置关系编码器 / 联合解码器

中图分类号

TP391.41

引用本文

导出引用
杨璐, 钱艺, 文益民. 基于场景中物体位置关系的图像描述方法. 桂林电子科技大学学报. 2024, 44(06): 560-567 https://doi.org/10.16725/j.1673-808X.202360

基金

广西重点研发计划(桂科AB21220023); 国家自然科学基金(61866007); 广西图像图形与智能处理重点实验室基金(GIIP2005)

评论

Accesses

Citation

Detail

段落导航
相关文章

/