Transformer 凭借其强大的特征提取能力,在众多视觉任务中展现了卓越的表现。尤其是近年推出的具有层次结构的 Transformer,诸如 Dilated Neighborhood Attention Transformer (DiNAT),在高效捕获全局与局部特征上表现尤为突出。然而,Transformer 在边缘检测领域的潜力尚未得到充分挖掘。本文提出了一种基于 Transformer 的单阶段边缘检测器——EdgeNAT。该方法采用 DiNAT 作为编码器,能够精准、高效地提取目标边界与有意义的边缘信息。
EdgeNAT 利用 DiNAT 捕获全局上下文信息与局部细节线索,同时通过创新性的 SCAF-MLA 解码器进一步增强特征表达能力,从空间与通道两个维度优化特征图关系。通过在多个数据集上的大量实验验证,EdgeNAT 在 RGB 和深度图像上的性能均达到了最新的技术水平。特别是在广泛使用的 BSDS500 数据集上,EdgeNAT L 模型在多尺度输入下实现了 ODS F-measure 和 OIS F-measure 分别为 86.0%、87.6%,在单尺度输入下分别为 84.9%、86.3%,相比当前最佳方法 EDTER 分别提高了 1.2%、1.1%、1.7% 和 1.6%。此外,在 RTX 4090 GPU 上使用单尺度输入,EdgeNAT 的推理速度可达 20.87 FPS。