Transformer跨界超越CNN,还解决了计算复杂度难题

新闻 人工智能
谈到Transformer,你可能会想到一众NLP模型。Transformer其实还能替CNN把活给干了,并且干得还不赖。

[[390500]]

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

 谈到Transformer,你可能会想到一众NLP模型。

但现在,Transformer其实还能替CNN把活给干了,并且干得还不赖。

比如微软亚研院最新提出的Swin Transformer,就在COCO数据集的分割检测任务上来了个跨领域超车,一举达到SOTA。

Transformer跨界超越CNN,还解决了计算复杂度难题

那么,问题来了。

关注NLP的盆友想必就会问,用Transformer做CV任务,这个想法早已有之,也没见对CNN的地位有什么动摇,Swin Transformer又有何不同?

这就涉及到Transformer的CV应用存在的两个主要问题:

  • 首先,基于Transformer的模型,token的长度是固定的。这对于NLP里的单词当然没有什么问题,但到了CV领域,视觉元素的比例各异,比如同一个场景中会存在大小不同的物体。
  • 其次,图像中的像素与文本中的文字相比,对分辨率的要求更高。而常规的自注意力的计算复杂度,是图像大小的平方,这就导致其在像素级别进行密集预测时会出现问题。

而Swin Transformer,就旨在解决这些NLP和CV之间差异带来的问题。

通过移动窗口计算的分层Transformer

Transformer跨界超越CNN,还解决了计算复杂度难题

Swin Transformer的诀窍,核心是两板斧:

  • 基于分层特征图,利用特征金字塔网络(FPN)或U-Net等技术进行密集预测
  • 将自注意力计算限制在不重叠的局部窗口中,同时允许跨窗口连接,从而带来更高的效率。
Transformer跨界超越CNN,还解决了计算复杂度难题

这第二板斧,也就是基于移动窗口的自注意力

如上图所示,在l层,采用常规的窗口分区方案,在每个窗口内计算自注意力。

在下一层l+1,窗口分区会被移动,产生新的窗口。新窗口中的自注意力计算跨越了l层中窗口的边界,提供了新的关联信息。

Transformer跨界超越CNN,还解决了计算复杂度难题

具体而言,Swin Transformer的整体架构是酱婶的:

  • 将RGB图像分割成不重叠的图像块(token);
  • 应用MLP(多层感知机)将原始特征转化为任意维度;
  • 应用多个修改了自注意力计算的Swin Transformer块,并保持token的数量;
  • 下采样层:通过合并2×2窗口中的相邻图像块来减少token的数量,并将特征深度增加一倍。

实验结果

研究人员让Swin Transformer分别挑战了ImageNet-1K、COCO和ADE20K上的图像分类、对象检测和语义分割任务。

其中,用于预训练的是ImageNet-22K数据集,ImageNet-1K数据集则用于微调。

结果显示,在COCO的分割和检测任务,以及ADE20K的语义分割任务上,Swin Transformer都超越了CNN,达到了SOTA。

而在ImageNet-1K的分类任务上,虽然没能超越EfficientNet,但效果相当且速度更快。

Transformer跨界超越CNN,还解决了计算复杂度难题

论文笔记就分享到这里,如果想要了解更多细节,请戳文末传送门。

也期待你的读后感分享哟~

传送门

论文地址:
https://arxiv.org/abs/2103.14030

开源地址:
https://github.com/microsoft/Swin-Transformer

 

 

责任编辑:张燕妮 来源: 量子位
相关推荐

2020-10-05 22:00:59

深度学习编程人工智能

2021-12-01 15:16:32

自然语言神经网络人工智能

2021-09-17 10:44:50

算法复杂度空间

2021-01-05 10:41:42

算法时间空间

2023-03-03 08:43:08

代码重构系统

2009-07-09 10:45:16

C#基本概念复杂度递归与接口

2020-02-06 13:59:48

javascript算法复杂度

2015-10-13 09:43:43

复杂度核心

2018-12-18 10:11:37

软件复杂度软件系统软件开发

2022-08-16 09:04:23

代码圈圈复杂度节点

2020-12-30 09:20:27

代码

2019-12-24 09:46:00

Linux设置密码

2019-11-18 12:41:35

算法Python计算复杂性理论

2014-07-01 15:49:33

数据结构

2020-06-01 08:42:11

JavaScript重构函数

2021-10-15 09:43:12

希尔排序复杂度

2022-08-25 11:00:19

编程系统

2022-08-05 14:23:08

机器学习计算复杂度算法

2014-10-31 09:36:30

2019-01-02 05:55:30

领域驱动软件复杂度
点赞
收藏

51CTO技术栈公众号