Google 发布 TimesFM-2.5：更小、更强、更长上下文的时间序列基础模型原创

发布于 2025-9-22 08:30

浏览

0收藏

在 AI 圈子里，语言模型已经把大家“卷”到飞起，但有一个方向正悄悄崛起——时间序列预测。别小看它，它关乎零售的库存管理、能源的供需平衡、金融的风险监测，甚至天气预报。

最近，Google Research 带来了 TimesFM-2.5，一个只有 2 亿参数的时间序列基础模型，却能处理 1.6 万点的长序列上下文，还原生态地支持 概率预测。更关键的是，它直接登顶了 GIFT-Eval 榜单，在零样本（Zero-Shot）预测场景下，超越了之前一众大模型。

这次更新不仅是“参数减半、性能翻倍”的故事，更代表了时间序列基础模型逐渐从研究走向落地。

一、时间序列预测：看似冷门，却无处不在

所谓 时间序列预测（Time-Series Forecasting），其实就是利用历史的时间点数据，识别模式并推测未来走势。

举几个常见场景：

零售：预测商品销量，减少库存积压；
能源：预测用电负荷，避免电网过载；
金融：监控市场波动，进行风险管理；
交通：预测车流量，优化调度；
医疗：预测疾病趋势，做资源分配。

这些领域的共性是：数据具有时间依赖性和季节性规律，而传统的统计方法（如 ARIMA、ETS）在复杂场景下往往力不从心。这也是为什么近几年深度学习逐渐成为时间序列预测的主流方案。

二、TimesFM-2.5：比上一代更小，却更强

与 2.0 版本相比，TimesFM-2.5 带来了几处关键升级：

参数量：200M（缩小一半）上一代 5 亿参数，现在直接砍到 2 亿，却在精度上更进一步，推理效率也更高。
上下文长度：16,384 点（提升 8 倍）以前只能看 2048 点历史，现在一次能吃下 1.6 万点。这意味着它能捕捉多重季节性、长期趋势、甚至体制切换，大幅减少预处理和拼接的复杂性。
量化预测支持可选的 3000 万参数量化头，支持最长1000 步预测，适合长周期任务。
输入设计优化不再需要“频率”指示器，同时新增了翻转不变性（flip-invariance）、正值约束（positivity inference）和分位数交叉修复等推理标志。
未来规划

即将推出Flax 实现，提升推理速度；
支持协变量（covariates）回归；
Hugging Face 模型卡和文档持续完善。

一句话总结：更小、更快、更稳、更通用。

Google 发布 TimesFM-2.5：更小、更强、更长上下文的时间序列基础模型-AI.x社区

三、为什么长上下文是关键？

时间序列和自然语言不一样。语言模型遇到长文本，可以通过分块和拼接来处理，但时间序列如果切割过度，就会丢失周期性和趋势性特征。

16K 上下文的优势：

能在一次前向传播里直接学习多季节性结构（比如电力需求的日周期、周周期、季节性变化）；
避免了复杂的层级拼接（hierarchical stitching）；
对于上下文 >> 预测窗口的场景（如能源负荷、零售需求），能提供更稳定的预测。

换句话说，这次长上下文的提升，不仅是“看得更远”，更是“看得更全”。

四、研究背景：从 LLM 到 TimeFM

TimesFM 的研究逻辑，其实是把 语言模型的思想迁移到时间序列。

语言模型的训练过程：

把文本切成 Token，
通过解码器堆叠的 Transformer 处理，
逐步预测下一个 Token。

TimesFM 的做法是类似的：

把时间序列切成Patch（时间片段），相当于 Token；
用 Transformer 编码历史 Patch；
输出预测未来的 Patch。

不同点在于：

需要把时间片段转为 Token，这里用残差 MLP 模块来实现；
输出 Patch 的长度可以大于输入 Patch，能减少预测步骤，降低误差积累。

例如：

输入 32 个点 → 预测 128 个点，
相当于“一步预测多步”，在长预测任务中优势明显。

这就是为什么在长周期预测（如能源、交通数据）上，TimesFM 的表现优于不少专门训练的深度学习模型。

Google 发布 TimesFM-2.5：更小、更强、更长上下文的时间序列基础模型-AI.x社区

五、训练数据：1000 亿时间点的“大语料库”

像 LLM 需要大规模语料，时间序列模型也需要“大量合法的时间序列数据”。

Google 在预训练数据上做了两件事：

合成数据用统计模型或物理模拟生成，帮助模型学会时间序列的“语法”。
真实数据精选公开数据集，累计1000 亿时间点。其中包括：

Google Trends：反映用户搜索兴趣，
Wikipedia Pageviews：记录用户访问行为。

这样的组合，让模型既有“基础语感”，又能适应真实世界的复杂性。

六、实测结果：零样本也能打败专门训练的模型

Google 在多个基准上测试了 TimesFM：

Monash Forecasting Archive覆盖交通、天气、需求预测等多个领域。结果显示，TimesFM 的零样本表现优于大部分监督学习模型，甚至接近最新深度学习方法的效果。
长预测任务（ETT 数据集）对比PatchTST和llmtime(ZS)等方法，TimesFM 在长预测（96、192 点）场景下表现出色，接近甚至超越了专门训练的模型。
GIFT-Eval 榜单在 Salesforce 推出的跨领域评测基准上，TimesFM-2.5 在MASE（点预测精度）和CRPS（概率预测精度）上均拿下第一。

要知道，它的规模只有 2 亿参数，远小于 GPT-3.5，却能在时间序列预测上跑赢对方。

Google 发布 TimesFM-2.5：更小、更强、更长上下文的时间序列基础模型-AI.x社区

七、为什么这很重要？

过去，时间序列预测往往需要：

大量数据清洗与特征工程；
长时间的训练与验证；
针对每个业务场景单独建模。

这让企业在尝试 AI 预测时常常望而却步。

而像 TimesFM-2.5 这样的 时间序列基础模型，可以：

开箱即用（Zero-Shot），快速产出可用预测；
节省开发与算力成本；
适应多领域数据，方便迁移和部署。

对于零售、能源、金融、医疗等行业来说，这意味着：预测模型终于不再是“奢侈品”，而是可以直接上手的工具。

八、展望：从实验室到生产环境

TimesFM-2.5 已经在 Hugging Face 上开放，未来还会接入 Google BigQuery 与 Model Garden。这意味着：

企业可以直接在云端调用模型，快速接入业务流程；
开发者可以二次微调，结合特定场景优化预测；
社区可以基于公开模型，探索更多创新应用。

如果说过去的深度学习时间序列预测还停留在“实验室阶段”，那么 TimesFM-2.5 正在加速它走向 生产级落地。

结尾

在大语言模型占据舞台中央的今天，时间序列预测模型往往容易被忽视。但从零售到能源，从交通到医疗，几乎每一个行业都在和时间序列打交道。

Google 推出的 TimesFM-2.5 用更小的规模、更长的上下文、更强的零样本能力，证明了时间序列基础模型的价值正在显现。未来，我们或许会看到更多企业直接依赖这样的模型，完成从库存预测到电力调度的智能化升级。

那么问题来了：你觉得时间序列基础模型会像大语言模型一样，成为下一个 AI 基础设施吗？

本文转载自Halo咯咯作者：基咯咯

标签

Google

TimesFM-2.5

时间序列基础模型

51CTO

51CTO博客

51CTO学堂

Google 发布 TimesFM-2.5：更小、更强、更长上下文的时间序列基础模型原创

一、时间序列预测：看似冷门，却无处不在

二、TimesFM-2.5：比上一代更小，却更强

三、为什么长上下文是关键？

四、研究背景：从 LLM 到 TimeFM

五、训练数据：1000 亿时间点的“大语料库”

六、实测结果：零样本也能打败专门训练的模型

七、为什么这很重要？

八、展望：从实验室到生产环境

结尾

目录

51CTO

51CTO博客

51CTO学堂

Google 发布 TimesFM-2.5：更小、更强、更长上下文的时间序列基础模型 原创

一、时间序列预测：看似冷门，却无处不在

二、TimesFM-2.5：比上一代更小，却更强

三、为什么长上下文是关键？

四、研究背景：从 LLM 到 TimeFM

五、训练数据：1000 亿时间点的“大语料库”

六、实测结果：零样本也能打败专门训练的模型

七、为什么这很重要？

八、展望：从实验室到生产环境

结尾

目录

Google 发布 TimesFM-2.5：更小、更强、更长上下文的时间序列基础模型原创