基于多尺度Transformer特征的道路场景语义分割网络

彭洋, 吴文欢, 张淏坤

华东交通大学学报 ›› 2025, Vol. 42 ›› Issue (02) : 110-118. DOI: 10.16749/j.cnki.jecjtu.2025.02.011

基于多尺度Transformer特征的道路场景语义分割网络

  • 彭洋, 吴文欢, 张淏坤
作者信息 +
History +

摘要

道路场景中图像通常内容复杂,不同物体之间的尺度和形态差异较大,并且光照阴影等情况会让场景变得难以识别。而现有语义分割方法通常不能有效提取并充分融合多尺度语义特征,泛化能力和鲁棒性较差。文章提出了一种融合多尺度Transformer特征的语义分割网络模型。首先,利用CSWin Transformer提取不同尺度的语义特征,并且引入特征细化模块(FRM)提升深层小尺度特征的语义辨析能力;其次,采用注意力聚合模块(AAM)对不同尺度特征分别进行聚合;最后,通过融合这些增强后的多尺度特征,进一步提升特征的语义表达能力,从而提高分割性能。实验结果表明:该网络模型在Cityscapes数据集上取得了82.3%的准确率,较SegNeXt和ConvNeXt分别提升了2.2个百分点和1.2个百分点;在目前最具挑战性的ADE20K数据集上取得了47.4%的准确率,较SegNeXt和ConvNeXt分别提升了3.2个百分点和1.8个百分点。所提出的融合多尺度Transformer特征模型不仅具有较高的语义分割精度,能准确预测道路场景图像的像素语义类别,而且具有较强的泛化性能和鲁棒性。

关键词

语义分割 / Transformer特征 / 特征融合 / 空间期望最大化注意力 / 通道注意力

中图分类号

TP391.41 / U495

引用本文

导出引用
彭洋, 吴文欢, 张淏坤. 基于多尺度Transformer特征的道路场景语义分割网络. 华东交通大学学报. 2025, 42(02): 110-118 https://doi.org/10.16749/j.cnki.jecjtu.2025.02.011

基金

湖北省自然科学基金联合基金项目(2025AFD239); 湖北汽车工业学院博士科研启动基金项目(BK202347)

评论

Accesses

Citation

Detail

段落导航
相关文章

/