
时序Pattern提取+语义对齐增强基于LLM的时序预测效果
今天给大家介绍一篇时间序列大模型研究工作。这项工作基于预训练的语言模型,增强时间序列预测效果,文中提出了多层次、多频率表征抽取和语义对齐模块,实现LLM在时间序列数据形式上更好的应用。
论文标题:LLM-PS: Empowering Large Language Models for Time Series Forecasting with Temporal Patterns and Semantics
下载地址:https://arxiv.org/pdf/2503.09656
1.研究背景
使用大模型进行时间序列预测已经成为一个目前的热点研究方向。然而,目前借助预训练大语言模型进行时序预测,存在2个核心难点。首先是时间序列的多样化的pattern,和文本差异比较大,文本的含义都是稳定的,而时间序列数据经常出现各种各样的不同变化,给语言模型适配时间序列数据带来难度。其次,相比文本token的确定性含义,时间序列需要相对较长的序列长度才能具有明确的含义,比如是上涨趋势还是下降趋势,这给如何将时间序列转换成文本token带来难度。
为了解决上述问题,本文提出了LLM-PS方法,通过多层次的卷积网络提取不同类型的序列信息,并通过序列表征和token embedding的对齐实现将时间序列映射到文本表征的作用。LLM-PS在多个数据集上取得了效果提升,下面给大家展开介绍一些具体实现方法。
2.建模方法
本文的核心模型结构如下图所示,整体的工作流程如下。对于原始时间序列,使用多层次的卷积和小波变换,提取局部/全域信息以及高频/低频信息。同时,构建Time-Text模块进行时间序列和LLM词向量空间的对齐关系。最后通过时序表征和对齐后的文本表征联合优化,基于LoRA进行大模型的微调。
首先介绍第一个核心模块MSCNN。这个模块用来从原始时间序列中提取长短周期等信息,解决时间序列pattern多样性的问题。MSCNN通过多层的卷积进行表征提取,每层卷积为3*3的卷积核,通过多层嵌套逐步扩展感受野,得到从局部到全局的多组时序表征F。
这些表征,分别使用小波变化,分界处低频和高频信号,对低频和高频部分分别使用逆向小波变换,还原出对应的低频和高频表征。同时,使用从全局到局部和从局部到全局的各个F对应低频和高频信号进行逐层加和,得到高频部分从局部到全局的表征,以及低频部分从局部到全局的标注。MSCNN模块可以说起到了从多个维度相对全面将时间序列表征进行解耦抽取的作用。
接下来介绍第二个模块,Time-Text模块。这个模块的核心是将时序表征映射到LLM的词向量空间,实现时间序列到文本的转换。其核心是通过patch对原始时间序列进行处理,并进行75%的大比例随机mask,通过Encoder生成中间表征,Decoder还原,类似于一个自编码器。其中Encoder的中间表征和LLM的embedding计算相似度,根据相似度将每个patch映射到对应的文本上。
最后,这两部分表征会进行融合,作为LLM的输入进行时序预测,使用LoRA进行LLM的微调,以MSE作为损失函数进行训练。
3.实验效果
文中对比了多元长周期时序预测、短期时序预测,LLM-PS取得了显著效果提升。
本文转载自圆圆的算法笔记
