基于知识检索的多模态人物交互检测

陈妍, 高永彬

北京化工大学学报(自然科学版) ›› 2025, Vol. 52 ›› Issue (01) : 113-121. DOI: 10.13543/j.bhxbzr.2025.01.013

基于知识检索的多模态人物交互检测

  • 陈妍, 高永彬
作者信息 +
History +

摘要

人物交互(human-object interaction,HOI)检测在复杂场景理解中发挥着至关重要的作用。目前的大多数方法都以一阶段的方式将参数交互查询直接映射到一组HOI预测中,这导致丰富的交互结构没有被充分挖掘和利用。对此可以通过多模态数据获取更多维度的信息,从而更全面地理解人物之间的交互行为。为此设计了一种Transformer风格的HOI检测器,该检测器基于查询的方式检索对比语言图像预训练(CLIP)知识,然后执行交互建议生成,通过结构感知网络将非参数交互建议转换为HOI预测。本文创新性地将CLIP知识迁移到HOI检测中,并通过对整体语义结构和局部空间结构进行额外编码提高了预测结果的准确性。实验结果表明,所提模型在公共数据集V-COCO上的准确率达到了64.83%,在HICO-DET数据集上的准确率达到了28.78%,与现有的HOI检测算法相比展现出优越的性能,证明了该算法的有效性。

关键词

人-物体交互检测 / 计算机视觉 / 深度学习 / 目标检测 / 视觉关系

中图分类号

TP391.41 / TP18

引用本文

导出引用
陈妍, 高永彬. 基于知识检索的多模态人物交互检测. 北京化工大学学报(自然科学版). 2025, 52(01): 113-121 https://doi.org/10.13543/j.bhxbzr.2025.01.013

基金

国家自然科学基金(61802253); 上海市地方能力建设项目(21010501500); 上海市“科技创新行动计划”社会发展科技攻关项目(21DZ1204900)

评论

Accesses

Citation

Detail

段落导航
相关文章

/