
MTBench:用于金融时序推理和回答的多模态时间序列基准
“MTBench: A Multimodal Time Series Benchmark for Temporal Reasoning and Question Answering”
时间序列与文本数据的结合对理解复杂现实现象至关重要,尤其在金融和天气预测领域。现有基准缺乏对时间序列数据与文本之间复杂关联的关注,未能处理文本与时间序列数据矛盾的情况。
本文提出MTBench基准,旨在评估LLMs在金融和天气领域的多任务和多模态推理能力。MTBench通过将时间序列数据与相关文本信息对齐,促进跨模态互动,支持复杂推理任务。
摘要
本文提出MTBench(Multimodal Time Series Benchmark ,多模态时间序列基准),旨在评估大语言模型在金融和天气领域的时间序列与文本理解能力。MTBench包含配对的时间序列和文本数据,如金融新闻与股票价格变动、天气报告与历史温度记录。
同时提供了一个综合测试平台,支持模型对结构化数值趋势和非结构化文本叙述的联合推理。设计了多样化任务,包括时间序列预测、语义和技术趋势分析、新闻驱动的问答,考察模型捕捉时间依赖性和提取文本关键信息的能力。评估当前最先进的LLM在MTBench上的表现,发现其在捕捉长期依赖性、解释因果关系和融合多模态信息方面存在显著挑战。
简介
时间序列与文本数据的结合对理解复杂现实现象至关重要,尤其在金融和天气预测领域。现有的大型语言模型(LLMs)在跨时间序列和文本推理方面的能力尚未充分探索。现有的多模态时间序列-文本数据集主要集中于预测任务,忽视了因果推理和深度分析等推理驱动的挑战。现有基准缺乏对时间序列数据与文本之间复杂关联的关注,未能处理文本与时间序列数据矛盾的情况。
本文提出MTBench基准,旨在评估LLMs在金融和天气领域的多任务和多模态推理能力。MTBench通过将时间序列数据与相关文本信息对齐,促进跨模态互动,支持复杂推理任务。研究发现,LLMs在需要细致时间理解和多模态信息整合的任务上表现不佳,但相关文本信息能提升时间序列任务的表现。
MTBench的贡献包括:引入复杂推理和问答挑战的多模态时间序列基准;强调时间序列与文本之间的关系;提供灵活的框架以生成可控的数据集。
相关工作
LLMs用于时间序列分析。用于大型语言模型(LLMs)在时间序列分析中的应用日益受到关注,涉及预测、异常检测和金融建模等领域。一些方法通过对齐预训练嵌入与时间序列数据,或使用文本原型重编输入来提升推理能力。LLMs在可解释的金融预测和社会事件驱动预测中取得了成功,强调了针对时间序列数据的基础模型和标准化跨模态基准的需求。
时间序列基准数据集。现有的时间序列基准多基于经典任务特定数据集,逐渐关注文本-时间序列配对数据集的开发。Liu等人提出的Time-MMD数据集样本点较少,Karger等人的ForecastBench主要针对事件预测,而Cai等人的TimeseriesExam未考虑具体应用。提出的基准将专注于基于应用特定使用场景评估模型在多任务上的表现。
金融新闻基准数据集。现有金融基准数据集主要集中于单一数据模态,FinanceBench和FinDABench仅评估文本任务,缺乏时间序列整合。Islam等人提出的金融援助预测基准专注于时间序列,不包含文本数据。PIXIU和FinBen集成了时间序列和文本,但主要来源于Twitter,而我们的基准则整理了金融新闻。最新的FNSPID数据集将股价时间序列与金融新闻对齐,专注于股价预测。我们的数据集不仅限于价格预测,还涵盖更广泛的金融任务,如金融指标预测,利用历史金融记录和新闻来源进行全面评估。
天气基准数据集。天气数据集基准主要有两个方向:数值天气预报模型的基准和时序预测的LLM评估。现有的大规模天气基准数据集通常不适合评估LLM的零-shot性能。WeatherBench和WeatherBench 2是标准化的基准,使用重分析数据,提供更高分辨率和额外变量。Huber等人提出Weather2K,结合结构化和非结构化天气数据。评估时序LLM性能仍面临高质量文本-时间序列数据对的缺乏。提议的基准数据集通过生成严重天气事件的新闻来解决这一问题,并扩展了时间跨度和地点数量。
数据集收集与预处理
本文选择金融和天气领域进行数据集收集,因其在评估大语言模型的多模态整合和推理能力方面具有重要应用意义。金融市场中,理解股价与新闻情绪的关系对风险评估、算法交易和经济预测至关重要。天气预测在气候监测、供应链物流和灾害准备中发挥关键作用。这两个领域因动态外部因素、不确定性和事件驱动的波动性而具有内在复杂性。
原始数据收集
金融数据集:
- 收集了200,000个金融新闻文章URL,涵盖2021年5月至2023年9月。
- 从中提取了20,000篇新闻,确保文章长度分布均衡。
- 使用GPT-4o为每篇文章注释元数据,包括内容类型、时间效应范围和情感。
- 股票时间序列数据与新闻文章对应,采用不同粒度的历史股价数据。
- 预测设置:短期预测(7天股价,5分钟粒度)和长期预测(30天股价,1小时粒度)。
天气数据集:
- 选择50个美国机场,使用GHCN-H数据集,数据时间范围为2003至2020年,记录温度等多个气象属性。
- 重点关注温度数据,未来可扩展为多通道天气分析。
- 使用风暴事件数据库记录1950至2020年间的风暴事件,包括类型、地点、伤亡等信息,提供复杂天气条件的上下文。
数据对齐和预处理
财务新闻与股票价格的匹配
通过时间戳对齐新闻与股票时间序列,进行语义分析,发现并非所有新闻准确反映未来股价趋势。
数据集分类:
- 一致新闻数据集:80%对齐对,新闻情感与未来趋势一致。
- 不一致新闻数据集:20%对齐对,情感与实际价格变化不符。
一致数据集用于评估LLM对有用信息的预测能力,不一致数据集用于测试模型识别误导信息的能力。
天气事件报告与记录对齐
将风暴事件与最近机场天气数据配对,采用50公里半径进行匹配,合并相关事件。利用LLM生成合成新闻文章,补充缺失的叙述信息。
使用新闻文章结束时间作为锚点,获取前7天的天气数据预测次日温度。处理NCEI数据集中的不规则时间间隔,通过计算每小时平均温度并插值填补缺失值,得到每日24小时和过去7天168个数据点。将插值后的7天和14天温度数据与40篇最长新闻文章配对。研究两种预测场景:短期预测(用过去7天预测次日)和长期预测(用过去14天预测未来3天)。
数据统计
金融数据集:包含20,000篇预处理和标记的金融新闻文章,分析市场趋势、情感和叙事;还有两个配对的文章-时间序列数据集,各20,000对,研究金融新闻与市场波动的关系。
天气数据集:为50个美国气象站生成2,000对时间序列和新闻,每站40对,包含7或14天的温度数据和描述严重天气事件的合成新闻。
金融数据集分类:
- 内容类型:市场新闻与分析、投资与股票分析、交易与投机投资。
- 时间效应范围:回顾性分析、当前市场洞察、预测与展望。
- 情感:根据潜在市场影响标记情感极性。
天气数据集分布:主要为短期、高频天气事件,常见有雷暴风、闪电洪水和冰雹,短期事件(少于六小时)占主导,长时间事件较少,适合短期气象扰动研究。
任务设计
时序预测任务
任务目标:基于历史观察预测未来时间序列值,结合文本新闻进行多模态信息整合。
领域:金融和天气,需捕捉时间依赖性。
评估设置:金融长期预测基于30天历史数据,天气长期预测基于14天历史数据。
评估指标:金融使用MAE和MAPE,天气使用MSE和MAE。
语义趋势分析
趋势计算:金融时间序列通过最后与第一个数据点的百分比变化计算趋势;天气数据通过计算输入天数的日均温度斜率来确定趋势,短期预测则比较最后输入日与未来日的日均温度差。
趋势标签分箱:为便于分类,计算的百分比变化被离散化为预定义的区间,金融数据有3-way和5-way分类,天气数据仅有3-way分类。
评估指标:使用标签分类准确率评估模型对趋势标签的正确分配能力。
技术指标预测
技术指标预测任务评估LLM在金融和天气相关指标预测的能力。
金融数据指标:
- MACD:12日与26日指数移动平均的差值,识别动量变化和趋势反转。
- 布林带上轨:上轨 = 简单移动平均 + k · 标准差,评估波动性和超买情况。
天气数据指标:
- 次日最高和最低温度预测。
- 次日温差预测。
任务为回归任务,使用均方误差(MSE)和平均绝对误差(MAE)评估,帮助人们做出决策。
新闻驱动的问答
现有的多模态时间序列数据集忽视了推理密集型任务,如问答(QA),限制了评估LLM整合文本和时间序列数据的能力。提出了一个基于新闻的QA任务,包括两个子任务:相关性预测和多项选择QA。
相关性预测旨在评估LLM识别金融新闻情感与未来股价趋势之间关系的能力,分为3类(正面、中性、负面)和5类(强正面、适度正面、无关系、适度负面、强负面)。真实标签通过GPT-4o生成,确保与实际市场波动一致,挑战LLM整合文本情感与数值时间序列数据的理解。许多股票-新闻对表现出负相关性,给LLM带来挑战。
多项选择QA评估LLM在多模态文本分析和时间序列理解上的能力。通过生成正确和错误的陈述,基于股票价格时间序列和相关新闻。正确陈述基于新闻内容、时间序列趋势或有效因果关系。错误陈述源于虚假声明、误解事件或因果推理错误。任务挑战模型理解文本和数值数据的语义及其因果关系。
实验
实验设置
评估任务使用的模型包括GPT-4o、Claude-Sonnet-3.5-20241022、Gemini-2.0-Flash、LLaMA 3.1-8B和DeepSeek-Chat,特定金融任务还使用OpenAIo1。
模型在时间序列和时间序列+文本设置下进行评估,除了新闻驱动的问答任务。
金融数据集模型温度设置:所有任务0.7,天气回归任务0.5,天气分类任务0.2。
实验结果
时间序列预测在短期(如7天输入,1天输出)表现优于长期预测,因捕捉复杂时间依赖性更具挑战。融入文本信息显著提升预测准确性:股票预测平均提高9.78%,温度预测提高6.63%。
股票预测中,文本信息的优势更明显,因市场受金融新闻影响较大;而温度预测受物理规律影响较稳定。DeepSeek模型在长期温度预测中,文本整合反而降低准确性,可能存在模态干扰。LLM在生成特定长度输出时常出现不一致,尤其在长期设置中,需进一步优化模型训练以满足输出要求。
股票趋势预测:LLMs在短期(7天)和长期(30天)股票价格趋势预测中表现不同,短期预测更具挑战性。使用Chain-of-Thought(CoT)提示技术提高了预测的可靠性。文本数据的引入通常提升了预测准确性,但在过去趋势分类中有时会降低性能。
技术指标计算:在预测MACD和布林带上限时,文本数据的加入显著提高了预测准确性。OpenAI-o1在大多数任务中表现最佳,MACD对文本输入的依赖性较低。
温度差异预测:结合文本数据的温度预测表现更佳,但温度差异预测最具挑战性,误差较高。整体趋势显示多模态学习在时间序列预测中的重要性。
短期与长期预测:LLMs在30天预测中表现优于7天,表明短期市场波动更难预测。短期多项选择问答(MCQA)相对简单,模型在处理长期推理时面临更多复杂性。
模型偏差:在5类分类设置中,LLMs倾向于将新闻与股票价格运动的关系分类为中等正相关,显示出对相关性动态的捕捉能力不足,难以分析负相关或弱相关。
总结和未来工作
MTBench是一个评估LLM在多模态时间序列和文本数据推理能力的基准,强调文本叙述与数值趋势的语义和时间对齐。评估结果显示,LLM在某些方面表现良好,但在复杂的时间推理、因果推断和跨模态综合方面存在困难。MTBench主要关注金融和天气数据,未来可扩展至医疗和社会科学等领域。研究评估了现成的LLM,未来研究可探索微调策略和架构改进以提升时间推理能力。
本文转载自灵度智能,作者:灵度智能
