比肩Transformer的Mamba在时间序列上有效吗?

人工智能
Mamba是一种基于State Space Model的结构,和RNN非常像。Mamba相比Transformer,在训练阶段和inference阶段都有随序列长度线性增长的时间复杂度,运算效率显著由于Transformer这种结构。

Mamba是最近最火的模型之一,更是被业内认为可以有取代Transformer的潜力。今天介绍的这篇文章,探索了Mamba模型在时间序列预测任务上是有有效。本文首先给大家介绍Mamba的基础原理,再结合这篇文章探索在时间序列预测场景中Mamba是否有效。

图片

论文标题:Is Mamba Effective for Time Series Forecasting?

下载地址:https://arxiv.org/pdf/2403.11144.pdf

1、Mamba基础原理

Mamba是一种基于State Space Model的结构,和RNN非常像。Mamba相比Transformer,在训练阶段和inference阶段都有随序列长度线性增长的时间复杂度,运算效率显著由于Transformer这种结构。

Mamba的核心可以分为以下4个部分:

State Space Model(SSM):状态空间模型,用来刻画上一个状态对当前状态的影响,以及当前状态对输出的影响;State Space Model中假设上一个状态和当前时刻的输入会影响下一个状态,并且当前的观测结果是由当前状态决定的。SSM可以表示为如下形式,矩阵A、B、C、D为超参数;

图片图片

卷积表达:用卷积来表达SSM,实现训练阶段的并发计算,通过将SSM中的计算输出的公式按照时间展开,通过设计相应的卷积核到一定的形式,可以利用卷积来表达每个时刻的输出为前面3个时刻输出的函数:

图片图片

Hippo Matrix:对于参数A,引入Hippo Matrix实现对历史信息的衰减融合;

图片图片

Selective模块:对于参数B和参数C个性化的矩阵实现对历史信息的个性化选择,将每个时刻的参数矩阵转换成关于输入的函数,实现每个时刻个性化的参数。

图片图片

关于Mamba更详细的模型解析,以及后续的Mamba相关工作,也更新到了知识星球中,感兴趣的同学可以在星球中进一步深入学习。

2、Mamba时间序列模型

下面介绍一下这篇文章中提出的Mamba时间序列预测框架,整体基于Mamba,对时间序列数据进行适配。整体分为Embedding、S/D-Mamba layer、Norm-FFN-Norm Layer三个部分。

Embedding:类似iTransformer的处理方法,对每个变量单独进行映射,生成每个变量的embedding,再将每个变量的embedding输入到后续的Mamba中。因此本文也可以看成是对iTransformer的模型结构的一个改造,改成了Mamba结构;

S/D-Mamba layer:Embedding的输入维度为[batch_size, variable_number, dim],将其输入到Mamba中,文中探索了S和D两种Mamba层,分别表示每层用一个mamba还是两个mamba,两个mamba会将两个的输出相加得到每层的输出结果;

Norm-FFN-Norm Layer:在输出层,使用normalization层和FFN层对Mamba的输出表征进行归一化和映射,结合残差网络,提升模型收敛性和稳定性。

图片图片

3、实验效果

下图是文中的核心实验结果,对比了Mamba和iTransformer、PatchTST等业内主流时间序列模型的效果。文中还对不同的预测窗口、泛化性等进行了实验对比。实验表明,Mamba不仅在计算资源上有优势,在模型效果上也可以比肩Transformer相关的模型,并且在长周期的建模上也很有前景。

图片图片

责任编辑:武晓燕 来源: 圆圆的算法笔记
相关推荐

2024-01-30 01:12:37

自然语言时间序列预测Pytorch

2021-05-28 17:59:37

K8sDNS解析CoreDNS

2024-02-27 17:32:30

时间序列分析库PyTimeTK数据科学

2023-12-29 08:02:17

大模型人工智能AI

2021-07-20 10:16:24

人工智能自然语言技术

2023-12-05 13:38:11

架构模型

2023-12-25 15:11:16

AI模型

2024-03-04 08:20:00

谷歌架构AI

2024-01-02 10:17:07

AI论文

2009-10-21 10:33:10

Windows 7以色列上架

2023-12-21 12:58:42

Mamba模型架构

2009-05-26 16:59:34

IT技术IT管理

2024-02-21 14:32:09

2022-11-03 15:18:20

Python组件算法

2024-01-23 12:57:00

模型数据

2022-07-22 07:25:12

模型人工智能

2024-03-29 12:49:00

AI训练开源

2012-12-10 10:57:04

IBMdW

2023-12-05 13:25:00

数据训练

2023-11-05 15:05:15

AI论文
点赞
收藏

51CTO技术栈公众号