基于循环结构的视觉Transformer

蒋磊, 王子其, 崔振宇, 常志勇, 时小虎

吉林大学学报(工学版) ›› 2024, Vol. 54 ›› Issue (07) : 2049-2056. DOI: 10.13229/j.cnki.jdxbgxb.20221141

基于循环结构的视觉Transformer

  • 蒋磊, 王子其, 崔振宇, 常志勇, 时小虎
作者信息 +
History +

摘要

针对视觉Transformer(Vision Transformer,ViT)性能的提升依赖于网络的参数量,从而导致其应用场景受限的缺点,本文从神经学得到启发,创新性地提出将人脑神经元之间的循环结构应用在ViT上。文中首次从黎曼几何的角度解释了循环结构生效的工作原理,之后以Token-to-Token Transformer(T2T Transformer)为主干框架提出了基于循环结构的ViT。实验结果表明:循环结构的引入能在视觉Transformer参数量基本不变化的情况下大幅提高其性能,使用循环结构后,在Imagenet分类数据集下网络仅增加0.14%的参数,但带来9%的分类精度提升;在目标检测任务中,增加0.1%的参数带来10.7%的性能提升。

关键词

视觉Transformer / 循环结构 / 黎曼几何

中图分类号

TP391.41 / TP183

引用本文

导出引用
蒋磊, 王子其, 崔振宇, 常志勇, 时小虎. 基于循环结构的视觉Transformer. 吉林大学学报(工学版). 2024, 54(07): 2049-2056 https://doi.org/10.13229/j.cnki.jdxbgxb.20221141

基金

国家自然科学基金项目(62272192); 吉林省科技发展计划项目(20210201080GX); 吉林省发改委项目(2021C044-1)

评论

Accesses

Citation

Detail

段落导航
相关文章

/