
Transformer时序预测哪些模块有效,哪些模块无效?模型内部运行原理深入分析
今天给大家介绍一篇ICML 2025中比较有意思的论文,这篇文章深入研究了Transformer在时间序列中为什么有效,以及什么情况下效果比较差,Transformer中的哪些结构对于时间序列预测最有效。
论文标题:A Closer Look at Transformers for Time Series Forecasting: Understanding Why They Work and Where They Struggle
下载地址:https://papers.cool/venue/kHEVCfES4Q@OpenReview
1.研究背景
基于Transformer的时间序列预测是目前的主流方法,具体的,不同模型建模方式差异也很大。整体包括Point-wise、Patch-wise、Variate-wise等多种类型。哪种结构才是最重要的,不同的模块又发挥着怎样的作用呢?这篇文章就进行了深入的研究。
2.研究方法
除了对比不同模型结构的MSE等拟合误差外,文中引入了一个互信息指标来衡量变量间关系对于预测的影响。这个指标的核心是计算当某个变量发生改变时,另一个变量的预测结果是否会发生比较大的变化。文中通过对变量增加不同组高斯噪声改变某个变量,再根据修改后模型预测的目标变量的方差来判断这两个变量之间的互信息。如果修改的变量和要观察的变量相同,则可以用来作为变量内部的互信息影响。通过对这个指标的分析,可以看出模型在多大程度上捕捉到了变量间的关系和变量内的关系。
此外,文中还构建了一组人造数据集,控制数据集中intra-variate和inter-variate关系的比例,来弥补真实数据集中可能缺失的变量间关系部分。
3.实验分析
下面重点介绍一下文中的实验分析部分,解答了Transformer在时间序列应用的一系列问题。
问题1——为什么Point-wise的建模方法效果最差:从下面实验可以看出,Point-wise的效果最差,而其变量内部的互信息很低(Intra MI),表明Point-wise建模方法其实无法建模出每个时间序列内部各个点之间的关系信息。Point-wise方法虽然有很高的变量间互信息(Inter MI),但是对于提升效果没什么帮助,另一方面可能也表明这些数据集是高度变量无关的。
文中进一步对比了Intra MI、Inter MI和效果之间的关系,整体来看,Intra MI和拟合效果呈现正相关。而Point-wise的Intra MI很低,导致了其拟合效果较差。同时,从上述实验结果也可以看出,虽然iTransformer等模型引入了变量间的attention建模,但实际Inter MI并不高。
问题2——Transformer中的什么结构对效果影响最大:从上面的分析可以看到,变量内部的关系建模对提升效果帮助最大。文中进一步分析哪些模块对效果影响最大,从下表可以看出,不加skip-connection的移除对效果影响最大。此外,Z-normalization对于提升预测效果也有非常大的帮助。
本文转载自圆圆的算法笔记,作者:Fareise
