何恺明MAE局限性被打破,与Swin Transformer结合,训练速度提升

人工智能 新闻
东京大学&商汤&悉尼大学的研究员,提供一个新思路。

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

自何恺明MAE横空出世以来,MIM(Masked Image Modeling)这一自监督预训练表征越来越引发关注。

但与此同时, 研究人员也不得不思考它的局限性。

MAE论文中只尝试了使用原版ViT架构作为编码器,而表现更好的分层设计结构(以Swin Transformer为代表),并不能直接用上MAE方法。

于是,一场整合的范式就此在研究团队中上演。

代表工作之一是来自清华、微软亚研院以及西安交大提出SimMIM,它探索了Swin Transformer在MIM中的应用。

但与MAE相比,它在可见和掩码图块均有操作,且计算量过大。有研究人员发现,即便是SimMIM的基本尺寸模型,也无法在一台配置8个32GB GPU的机器上完成训练。

基于这样的背景,东京大学&商汤&悉尼大学的研究员,提供一个新思路。

何恺明MAE局限性被打破,与Swin Transformer结合,训练速度提升

不光将Swin Transformer整合到了MAE框架上,既有与SimMIM相当的任务表现,还保证了计算效率和性能——

将分层ViT的训练速度提高2.7倍,GPU内存使用量减少70%。

来康康这是一项什么研究?

当分层设计引入MAE

这篇论文提出了一种面向MIM的绿色分层视觉Transformer。

即允许分层ViT丢弃掩码图块,只对可见图块进行操作。

何恺明MAE局限性被打破,与Swin Transformer结合,训练速度提升

具体实现,由两个关键部分组成。

首先,设计了一种基于分治策略的群体窗口注意力方案。

将具有不同数量可见图块的局部窗口聚集成几个大小相等的组,然后在每组内进行掩码自注意力。

何恺明MAE局限性被打破,与Swin Transformer结合,训练速度提升

其次,把上述分组任务视为有约束动态规划问题,受贪心算法的启发提出了一种分组算法。

何恺明MAE局限性被打破,与Swin Transformer结合,训练速度提升

它可以自适应选择最佳分组大小,并将局部窗口分成最少的一组,从而使分组图块上的注意力整体计算成本最小。

表现相当,训练时间大大减少

结果显示,在ImageNet-1K和MS-COCO数据集上实验评估表明,与基线SimMIM性能相当的同时,效率提升2倍以上。

何恺明MAE局限性被打破,与Swin Transformer结合,训练速度提升

而跟SimMIM相比,这一方法在所需训练时间大大减少,消耗GPU内存也小得多。具体而言,在相同的训练次数下,在Swin-B上提高2倍的速度和减少60%的内存。

何恺明MAE局限性被打破,与Swin Transformer结合,训练速度提升

值得一提的是,该研究团队在有8个32GB V100 GPU的单机上进行评估的,而SimMIM是在2或4台机器上进行评估。

研究人员还发现,效率的提高随着Swin-L的增大而变大,例如,与SimMIM192相比,速度提高了2.7倍。

实验的最后,提到了算法的局限性。其中之一就是需要分层次掩码来达到最佳的效率,限制了更广泛的应用。这一点就交给未来的研究。

何恺明MAE局限性被打破,与Swin Transformer结合,训练速度提升

而谈到这一研究的影响性,研究人员表示,主要就是减轻了MIM的计算负担,提高了MIM的效率和有效性。

感兴趣的旁友,可戳下方链接了解更多~

论文链接:

https://arxiv.org/abs/2205.13515

GitHub链接:

https://github.com/LayneH/GreenMIM

SimMIM论文链接:

https://arxiv.org/abs/2111.09886

责任编辑:张燕妮 来源: 量子位
相关推荐

2023-01-10 10:11:50

GPU计算

2021-11-26 18:45:22

AI 数据人工智能

2021-08-09 11:07:44

数据安全算法互联网

2022-12-30 08:26:43

基线预警局限性

2018-04-26 13:41:57

深度学习人工智能机器学习

2010-08-26 10:57:35

2022-06-16 12:51:48

工业机器人机器人

2021-04-20 08:31:13

Kubernetes局限性容器

2019-11-06 11:34:53

人工智能机器学习工具

2017-06-14 17:06:33

2017-10-09 19:12:52

AI深度学习局限性

2010-01-12 15:04:01

VB.NET异常处理

2010-08-06 11:04:11

RIP路由协议

2023-02-09 16:32:16

混合精度深度学习

2013-05-30 09:49:20

网络服务通信网络发展VoIP技术

2017-07-25 11:22:06

2017-07-12 10:00:22

深度学习小数据样本深度网络

2010-01-22 17:38:36

Visual C++

2014-08-20 10:20:18

2017-07-11 15:25:53

深度学习人工智能
点赞
收藏

51CTO技术栈公众号