基于多尺度Transformer特征的道路场景语义分割网络

doi:10.16749/j.cnki.jecjtu.2025.02.011

华东交通大学学报 ›› 2025, Vol. 42 ›› Issue (02) : 110-118. DOI: 10.16749/j.cnki.jecjtu.2025.02.011

彭洋, 吴文欢, 张淏坤

作者信息 +

History +

摘要

道路场景中图像通常内容复杂，不同物体之间的尺度和形态差异较大，并且光照阴影等情况会让场景变得难以识别。而现有语义分割方法通常不能有效提取并充分融合多尺度语义特征，泛化能力和鲁棒性较差。文章提出了一种融合多尺度Transformer特征的语义分割网络模型。首先，利用CSWin Transformer提取不同尺度的语义特征，并且引入特征细化模块（FRM）提升深层小尺度特征的语义辨析能力；其次，采用注意力聚合模块（AAM）对不同尺度特征分别进行聚合；最后，通过融合这些增强后的多尺度特征，进一步提升特征的语义表达能力，从而提高分割性能。实验结果表明：该网络模型在Cityscapes数据集上取得了82.3%的准确率，较SegNeXt和ConvNeXt分别提升了2.2个百分点和1.2个百分点；在目前最具挑战性的ADE20K数据集上取得了47.4%的准确率，较SegNeXt和ConvNeXt分别提升了3.2个百分点和1.8个百分点。所提出的融合多尺度Transformer特征模型不仅具有较高的语义分割精度，能准确预测道路场景图像的像素语义类别，而且具有较强的泛化性能和鲁棒性。