
Google 发布 TimesFM-2.5:更小、更强、更长上下文的时间序列基础模型 原创
在 AI 圈子里,语言模型已经把大家“卷”到飞起,但有一个方向正悄悄崛起——时间序列预测。别小看它,它关乎零售的库存管理、能源的供需平衡、金融的风险监测,甚至天气预报。
最近,Google Research 带来了 TimesFM-2.5,一个只有 2 亿参数的时间序列基础模型,却能处理 1.6 万点的长序列上下文,还原生态地支持 概率预测。更关键的是,它直接登顶了 GIFT-Eval 榜单,在零样本(Zero-Shot)预测场景下,超越了之前一众大模型。
这次更新不仅是“参数减半、性能翻倍”的故事,更代表了时间序列基础模型逐渐从研究走向落地。
一、时间序列预测:看似冷门,却无处不在
所谓 时间序列预测(Time-Series Forecasting),其实就是利用历史的时间点数据,识别模式并推测未来走势。
举几个常见场景:
- 零售:预测商品销量,减少库存积压;
- 能源:预测用电负荷,避免电网过载;
- 金融:监控市场波动,进行风险管理;
- 交通:预测车流量,优化调度;
- 医疗:预测疾病趋势,做资源分配。
这些领域的共性是:数据具有时间依赖性和季节性规律,而传统的统计方法(如 ARIMA、ETS)在复杂场景下往往力不从心。这也是为什么近几年深度学习逐渐成为时间序列预测的主流方案。
二、TimesFM-2.5:比上一代更小,却更强
与 2.0 版本相比,TimesFM-2.5 带来了几处关键升级:
- 参数量:200M(缩小一半)上一代 5 亿参数,现在直接砍到 2 亿,却在精度上更进一步,推理效率也更高。
- 上下文长度:16,384 点(提升 8 倍)以前只能看 2048 点历史,现在一次能吃下 1.6 万点。这意味着它能捕捉多重季节性、长期趋势、甚至体制切换,大幅减少预处理和拼接的复杂性。
- 量化预测支持可选的 3000 万参数量化头,支持最长1000 步预测,适合长周期任务。
- 输入设计优化不再需要“频率”指示器,同时新增了翻转不变性(flip-invariance)、正值约束(positivity inference)和分位数交叉修复等推理标志。
- 未来规划
- 即将推出Flax 实现,提升推理速度;
- 支持协变量(covariates)回归;
- Hugging Face 模型卡和文档持续完善。
一句话总结:更小、更快、更稳、更通用。
三、为什么长上下文是关键?
时间序列和自然语言不一样。语言模型遇到长文本,可以通过分块和拼接来处理,但时间序列如果切割过度,就会丢失周期性和趋势性特征。
16K 上下文的优势:
- 能在一次前向传播里直接学习多季节性结构(比如电力需求的日周期、周周期、季节性变化);
- 避免了复杂的层级拼接(hierarchical stitching);
- 对于上下文 >> 预测窗口的场景(如能源负荷、零售需求),能提供更稳定的预测。
换句话说,这次长上下文的提升,不仅是“看得更远”,更是“看得更全”。
四、研究背景:从 LLM 到 TimeFM
TimesFM 的研究逻辑,其实是把 语言模型的思想迁移到时间序列。
语言模型的训练过程:
- 把文本切成 Token,
- 通过解码器堆叠的 Transformer 处理,
- 逐步预测下一个 Token。
TimesFM 的做法是类似的:
- 把时间序列切成Patch(时间片段),相当于 Token;
- 用 Transformer 编码历史 Patch;
- 输出预测未来的 Patch。
不同点在于:
- 需要把时间片段转为 Token,这里用残差 MLP 模块来实现;
- 输出 Patch 的长度可以大于输入 Patch,能减少预测步骤,降低误差积累。
例如:
- 输入 32 个点 → 预测 128 个点,
- 相当于“一步预测多步”,在长预测任务中优势明显。
这就是为什么在长周期预测(如能源、交通数据)上,TimesFM 的表现优于不少专门训练的深度学习模型。
五、训练数据:1000 亿时间点的“大语料库”
像 LLM 需要大规模语料,时间序列模型也需要“大量合法的时间序列数据”。
Google 在预训练数据上做了两件事:
- 合成数据用统计模型或物理模拟生成,帮助模型学会时间序列的“语法”。
- 真实数据精选公开数据集,累计1000 亿时间点。其中包括:
- Google Trends:反映用户搜索兴趣,
- Wikipedia Pageviews:记录用户访问行为。
这样的组合,让模型既有“基础语感”,又能适应真实世界的复杂性。
六、实测结果:零样本也能打败专门训练的模型
Google 在多个基准上测试了 TimesFM:
- Monash Forecasting Archive覆盖交通、天气、需求预测等多个领域。结果显示,TimesFM 的零样本表现优于大部分监督学习模型,甚至接近最新深度学习方法的效果。
- 长预测任务(ETT 数据集)对比PatchTST和llmtime(ZS)等方法,TimesFM 在长预测(96、192 点)场景下表现出色,接近甚至超越了专门训练的模型。
- GIFT-Eval 榜单在 Salesforce 推出的跨领域评测基准上,TimesFM-2.5 在MASE(点预测精度)和CRPS(概率预测精度)上均拿下第一。
要知道,它的规模只有 2 亿参数,远小于 GPT-3.5,却能在时间序列预测上跑赢对方。
七、为什么这很重要?
过去,时间序列预测往往需要:
- 大量数据清洗与特征工程;
- 长时间的训练与验证;
- 针对每个业务场景单独建模。
这让企业在尝试 AI 预测时常常望而却步。
而像 TimesFM-2.5 这样的 时间序列基础模型,可以:
- 开箱即用(Zero-Shot),快速产出可用预测;
- 节省开发与算力成本;
- 适应多领域数据,方便迁移和部署。
对于零售、能源、金融、医疗等行业来说,这意味着:预测模型终于不再是“奢侈品”,而是可以直接上手的工具。
八、展望:从实验室到生产环境
TimesFM-2.5 已经在 Hugging Face 上开放,未来还会接入 Google BigQuery 与 Model Garden。这意味着:
- 企业可以直接在云端调用模型,快速接入业务流程;
- 开发者可以二次微调,结合特定场景优化预测;
- 社区可以基于公开模型,探索更多创新应用。
如果说过去的深度学习时间序列预测还停留在“实验室阶段”,那么 TimesFM-2.5 正在加速它走向 生产级落地。
结尾
在大语言模型占据舞台中央的今天,时间序列预测模型往往容易被忽视。但从零售到能源,从交通到医疗,几乎每一个行业都在和时间序列打交道。
Google 推出的 TimesFM-2.5 用更小的规模、更长的上下文、更强的零样本能力,证明了时间序列基础模型的价值正在显现。未来,我们或许会看到更多企业直接依赖这样的模型,完成从库存预测到电力调度的智能化升级。
那么问题来了:你觉得时间序列基础模型会像大语言模型一样,成为下一个 AI 基础设施吗?
本文转载自Halo咯咯 作者:基咯咯
