Google 发布 TimesFM-2.5:更小、更强、更长上下文的时间序列基础模型 原创

发布于 2025-9-22 08:30
浏览
0收藏

在 AI 圈子里,语言模型已经把大家“卷”到飞起,但有一个方向正悄悄崛起——时间序列预测。别小看它,它关乎零售的库存管理、能源的供需平衡、金融的风险监测,甚至天气预报。

最近,Google Research 带来了 TimesFM-2.5,一个只有 2 亿参数的时间序列基础模型,却能处理 1.6 万点的长序列上下文,还原生态地支持 概率预测。更关键的是,它直接登顶了 GIFT-Eval 榜单,在零样本(Zero-Shot)预测场景下,超越了之前一众大模型。

这次更新不仅是“参数减半、性能翻倍”的故事,更代表了时间序列基础模型逐渐从研究走向落地。

一、时间序列预测:看似冷门,却无处不在

所谓 时间序列预测(Time-Series Forecasting),其实就是利用历史的时间点数据,识别模式并推测未来走势。

举几个常见场景:

  1. 零售:预测商品销量,减少库存积压;
  2. 能源:预测用电负荷,避免电网过载;
  3. 金融:监控市场波动,进行风险管理;
  4. 交通:预测车流量,优化调度;
  5. 医疗:预测疾病趋势,做资源分配。

这些领域的共性是:数据具有时间依赖性季节性规律,而传统的统计方法(如 ARIMA、ETS)在复杂场景下往往力不从心。这也是为什么近几年深度学习逐渐成为时间序列预测的主流方案。

二、TimesFM-2.5:比上一代更小,却更强

与 2.0 版本相比,TimesFM-2.5 带来了几处关键升级:

  1. 参数量:200M(缩小一半)上一代 5 亿参数,现在直接砍到 2 亿,却在精度上更进一步,推理效率也更高。
  2. 上下文长度:16,384 点(提升 8 倍)以前只能看 2048 点历史,现在一次能吃下 1.6 万点。这意味着它能捕捉多重季节性长期趋势、甚至体制切换,大幅减少预处理和拼接的复杂性。
  3. 量化预测支持可选的 3000 万参数量化头,支持最长1000 步预测,适合长周期任务。
  4. 输入设计优化不再需要“频率”指示器,同时新增了翻转不变性(flip-invariance)正值约束(positivity inference)分位数交叉修复等推理标志。
  5. 未来规划
  • 即将推出Flax 实现,提升推理速度;
  • 支持协变量(covariates)回归;
  • Hugging Face 模型卡和文档持续完善。

一句话总结:更小、更快、更稳、更通用

Google 发布 TimesFM-2.5:更小、更强、更长上下文的时间序列基础模型-AI.x社区

三、为什么长上下文是关键?

时间序列和自然语言不一样。语言模型遇到长文本,可以通过分块和拼接来处理,但时间序列如果切割过度,就会丢失周期性和趋势性特征。

16K 上下文的优势

  • 能在一次前向传播里直接学习多季节性结构(比如电力需求的日周期、周周期、季节性变化);
  • 避免了复杂的层级拼接(hierarchical stitching)
  • 对于上下文 >> 预测窗口的场景(如能源负荷、零售需求),能提供更稳定的预测。

换句话说,这次长上下文的提升,不仅是“看得更远”,更是“看得更全”。

四、研究背景:从 LLM 到 TimeFM

TimesFM 的研究逻辑,其实是把 语言模型的思想迁移到时间序列

语言模型的训练过程:

  • 把文本切成 Token,
  • 通过解码器堆叠的 Transformer 处理,
  • 逐步预测下一个 Token。

TimesFM 的做法是类似的:

  • 把时间序列切成Patch(时间片段),相当于 Token;
  • 用 Transformer 编码历史 Patch;
  • 输出预测未来的 Patch。

不同点在于:

  1. 需要把时间片段转为 Token,这里用残差 MLP 模块来实现;
  2. 输出 Patch 的长度可以大于输入 Patch,能减少预测步骤,降低误差积累。

例如:

  • 输入 32 个点 → 预测 128 个点,
  • 相当于“一步预测多步”,在长预测任务中优势明显。

这就是为什么在长周期预测(如能源、交通数据)上,TimesFM 的表现优于不少专门训练的深度学习模型。

Google 发布 TimesFM-2.5:更小、更强、更长上下文的时间序列基础模型-AI.x社区

五、训练数据:1000 亿时间点的“大语料库”

像 LLM 需要大规模语料,时间序列模型也需要“大量合法的时间序列数据”。

Google 在预训练数据上做了两件事:

  1. 合成数据用统计模型或物理模拟生成,帮助模型学会时间序列的“语法”。
  2. 真实数据精选公开数据集,累计1000 亿时间点。其中包括:
  • Google Trends:反映用户搜索兴趣,
  • Wikipedia Pageviews:记录用户访问行为。

这样的组合,让模型既有“基础语感”,又能适应真实世界的复杂性。

六、实测结果:零样本也能打败专门训练的模型

Google 在多个基准上测试了 TimesFM:

  1. Monash Forecasting Archive覆盖交通、天气、需求预测等多个领域。结果显示,TimesFM 的零样本表现优于大部分监督学习模型,甚至接近最新深度学习方法的效果。
  2. 长预测任务(ETT 数据集)对比PatchTSTllmtime(ZS)等方法,TimesFM 在长预测(96、192 点)场景下表现出色,接近甚至超越了专门训练的模型。
  3. GIFT-Eval 榜单在 Salesforce 推出的跨领域评测基准上,TimesFM-2.5 在MASE(点预测精度)CRPS(概率预测精度)上均拿下第一。

要知道,它的规模只有 2 亿参数,远小于 GPT-3.5,却能在时间序列预测上跑赢对方。

Google 发布 TimesFM-2.5:更小、更强、更长上下文的时间序列基础模型-AI.x社区

Google 发布 TimesFM-2.5:更小、更强、更长上下文的时间序列基础模型-AI.x社区

七、为什么这很重要?

过去,时间序列预测往往需要:

  • 大量数据清洗与特征工程
  • 长时间的训练与验证
  • 针对每个业务场景单独建模

这让企业在尝试 AI 预测时常常望而却步。

而像 TimesFM-2.5 这样的 时间序列基础模型,可以:

  • 开箱即用(Zero-Shot),快速产出可用预测;
  • 节省开发与算力成本;
  • 适应多领域数据,方便迁移和部署。

对于零售、能源、金融、医疗等行业来说,这意味着:预测模型终于不再是“奢侈品”,而是可以直接上手的工具。

八、展望:从实验室到生产环境

TimesFM-2.5 已经在 Hugging Face 上开放,未来还会接入 Google BigQuery 与 Model Garden。这意味着:

  • 企业可以直接在云端调用模型,快速接入业务流程;
  • 开发者可以二次微调,结合特定场景优化预测;
  • 社区可以基于公开模型,探索更多创新应用。

如果说过去的深度学习时间序列预测还停留在“实验室阶段”,那么 TimesFM-2.5 正在加速它走向 生产级落地

结尾

在大语言模型占据舞台中央的今天,时间序列预测模型往往容易被忽视。但从零售到能源,从交通到医疗,几乎每一个行业都在和时间序列打交道。

Google 推出的 TimesFM-2.5 用更小的规模、更长的上下文、更强的零样本能力,证明了时间序列基础模型的价值正在显现。未来,我们或许会看到更多企业直接依赖这样的模型,完成从库存预测到电力调度的智能化升级。

那么问题来了:你觉得时间序列基础模型会像大语言模型一样,成为下一个 AI 基础设施吗?

本文转载自​​​Halo咯咯​​​    作者:基咯咯

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐