基于位置前馈和平均教师的图像描述生成算法

陈铄, 张娟

PDF(8759 KB)
PDF(8759 KB)
东华大学学报(自然科学版) ›› 2025, Vol. 51 ›› Issue (02) : 206-214. DOI: 10.19886/j.cnki.dhdz.2024.0173

基于位置前馈和平均教师的图像描述生成算法

  • 陈铄, 张娟
作者信息 +
History +

摘要

图像描述生成算法是计算机视觉中的关键环节,旨在从给定的输入图像中预测相关文本信息,以实现对图像内容的准确理解与表达。提出一种借鉴平均教师算法的模型,并采用独特的双分支网络架构。为提升模型准确性与稳定性,在每个分支中引入位置前馈块。在图像特征提取方面,运用对比语言图像预训练(CLIP)方法,以获取图像的多层次特征,从而更好地捕捉图像的语义信息。在描述生成阶段,通过映射网络将图像特征转化为文本信息,进而利用GPT-2技术来提升预测的准确度与语义的连贯性。为验证模型性能,在Microsoft common objects in context(MSCOCO)和Flickr30k等图像描述数据集上进行充分的训练与测试。测试结果显示所提模型在两个数据集上均表现出色,证实其在图像描述生成任务中的高效性与实用性。研究为图像描述生成领域提供了新的思路与方法,具有深远的理论与实践意义。

关键词

平均教师 / 位置前馈 / CLIP / 图像描述生成 / GPT-2

中图分类号

TP391.41

引用本文

导出引用
陈铄, 张娟. 基于位置前馈和平均教师的图像描述生成算法. 东华大学学报(自然科学版). 2025, 51(02): 206-214 https://doi.org/10.19886/j.cnki.dhdz.2024.0173

基金

上海地方能力建设项目(21010501500); 上海市科技创新行动计划(21DZ1204900)

评论

PDF(8759 KB)

Accesses

Citation

Detail

段落导航
相关文章

/