FutureCast(天星台) 情境感知时间序列预测评估基准

FutureCast(天星台) 将预测样本从"历史序列—未来标签"扩展为 "历史序列—上下文情境—证据标注—预测目标", 系统评估下一代时间序列预测模型的情境理解、因果推理与动态自适应能力。

中国科学技术大学 · 认知智能全国重点实验室 · AGI 研究组

一句话定位: FutureCast(天星台) 是一个面向情境感知时间序列预测Benchmark 数据集与大模型训练语料库—— 将每个预测样本构造为"历史序列—上下文情境—证据标注—预测目标"的联合实例, 系统化训练和评估模型的情境理解、因果推理与动态自适应三类核心能力。

项目简介

时间序列预测方法已从统计建模和深度学习逐步发展到时间序列基础模型。 现有通用预测基准关注模型在跨领域、跨频率、跨预测长度场景下的泛化能力, 但在真实预测场景中,未来变化往往不只由历史序列本身决定—— 天气、节假日、政策变化、突发事件、空间环境、领域知识和人类经验等 多源异构情境因素对预测结果具有实质性影响,而现有 Benchmark 对这类信息的建模与评估仍然不足。

FutureCast(天星台) 为弥补这一空白而构建。它借鉴 GIFT-Eval 等系统化 Benchmark 的设计思路, 在多领域、多频率、多预测长度的基础上进一步引入情境维度, 推动时间序列预测从序列模式拟合走向情境感知的未来推理

3
核心能力维度
对齐 · 推理 · 自适应
5
设计原则
覆盖数据到评测
10
任务类型
从数值预测到动态修正
5
评估维度
含 Forecast Revision Gain

为什么需要 FutureCast(天星台)

现有时间序列预测基准大多围绕数值序列本身构建, 关注预测误差在不同领域、频率、预测长度下的表现。 GIFT-Eval 展示了这种系统化评估的重要性,但真实世界的预测任务往往具有更强的情境依赖性:

能源与电力

电力负荷受温度、节假日和工业活动影响,仅靠历史序列无法捕捉负荷突变的外部原因。

🚦

交通与出行

交通流量受天气、事故和大型活动影响,这些情境信号对短期预测尤为关键。

📈

金融与市场

政策变化、新闻事件和市场情绪直接驱动价格波动,情境理解能力是金融预测的核心。

🏥

医疗与健康

医疗时间序列受病人状态、治疗干预和临床知识影响,纯序列建模无法融入领域先验。

FutureCast(天星台) 将评估重点从 general forecasting capability 拓展为 context-aware forecasting capability, 不仅评估模型能否预测得准,还评估模型是否能够识别关键情境、对齐情境与序列变化、 推理情境影响,并在新证据出现后动态修正预测

FutureCast(天星台) 关注的核心问题不只是:

模型能否预测未来数值?

而是:

模型能否理解未来为什么会变化,并在情境变化时动态更新预测?

Benchmark 设计原则

FutureCast(天星台) 借鉴通用时间序列 Benchmark 的系统化设计思路, 并进一步面向情境感知预测进行扩展,遵循以下五项原则:

三大核心能力维度

FutureCast(天星台) 围绕情境感知时间序列预测的三类关键能力展开, 每一维度都针对真实预测场景中不同层次的情境建模需求:

🔗

情境语义对齐与融合建模

Context-Sequence Alignment & Fusion

关注多源异构上下文情境如何有效表示、语义对齐并融入预测模型。 FutureCast(天星台) 的情境信息来自天气、日历、节假日、新闻事件、空间环境、业务规则和专家经验。 模型需要判断哪些情境与当前预测任务相关, 并将情境与目标时间序列的变化区间在语义、时间和预测目标上形成有效融合。

🧩

情境因果关联理解与推理建模

Causal Context Reasoning

关注情境因素如何影响未来趋势,模型如何从模式拟合走向原因分析、假设探索和证据验证。 模型不仅需要输出预测值,还需要给出与情境证据一致的趋势判断和推理解释: 高温是否推高电力负荷?政策变化是否影响能源需求?突发事件是否导致趋势突变?

🔄

动态情境自适应建模

Dynamic Context Adaptation

关注当情境变化或信息不完整时,模型如何主动发现情境缺口、获取新证据,并动态更新预测。 FutureCast(天星台) 构建动态情境样本和多轮评估任务, 使模型经历"初始预测—发现缺口—获取证据—更新推理—修正预测"的完整过程。

数据组成与划分

样本结构

FutureCast(天星台) 中的每个样本被构造成一个 context-aware forecasting instance, 包含八类组成部分:

组成部分内容说明
目标时间序列历史观测值、变量名称、采样频率、预测长度
时间情境日期、季节、工作日、周末、节假日、特殊时间段
空间情境区域、站点、地理位置、环境状态、空间邻近关系
外部事件天气变化、政策调整、突发事件、市场波动、重大活动
文本知识新闻描述、事件摘要、领域背景、任务说明
领域先验业务规则、专家知识、变量含义、历史经验
标注信息相关情境、趋势标签、事件影响、证据依据、推理摘要
预测目标未来数值、趋势方向、变化点、预测区间或事件结果

数据划分方式

FutureCast(天星台) 采用多种划分策略,避免简单随机划分带来的信息泄漏和过拟合问题:

划分方式目的
时间划分模拟真实预测场景,避免未来信息泄漏
领域划分评估跨领域泛化能力
区域划分评估跨空间迁移能力
事件划分评估未见事件下的情境推理能力
情境组合划分评估复杂情境组合下的鲁棒性
Hard Test Set评估极端天气、突发事件、分布漂移和长预测窗口场景

多层任务体系

FutureCast(天星台) 支持从基础预测到情境推理、再到动态自适应的完整多层任务体系, 覆盖十类任务:

情境感知预测

结合历史序列与上下文情境预测未来数值,是 FutureCast(天星台) 的基础任务。

情境选择

判断哪些情境因素与当前预测任务相关,评估模型的情境感知与过滤能力。

情境—序列对齐

将外部事件或上下文描述与时间序列的变化区间进行时间对齐。

趋势推理

基于情境证据判断未来趋势方向,要求模型给出有据可查的趋势判断。

事件影响分析

分析外部事件对未来走势的潜在影响及其作用机制和量化程度。

反事实预测

改变某一情境条件后预测未来变化,评估模型的假设推理与因果理解能力。

情境缺口识别

判断当前预测还缺少哪些关键情境信息,驱动主动信息获取行为。

工具调用规划

选择需要调用的数据源、检索工具或分析工具,支持 Agentic TSF 评估。

预测修正

根据新增情境证据动态更新预测结果,衡量 Forecast Revision Gain。

解释生成

生成基于证据的预测解释和不确定性说明,评估推理可解释性和忠实度。

评估协议

FutureCast(天星台) 的评估协议覆盖五个维度,从数值预测准确性到动态自适应能力进行全面衡量:

Dimension 1
数值预测准确性
MAE · RMSE · MAPE · sMAPE · CRPS
Dimension 2
趋势判断能力
Direction Accuracy · Trend Accuracy · Turning-point F1
Dimension 3
情境理解能力
Context Relevance Accuracy · Evidence Selection F1
Dimension 4
推理解释质量
Evidence-grounded Score · Reasoning Faithfulness · Counterfactual Consistency
Dimension 5
动态自适应能力
Context Gap Detection · Tool-use Success Rate · Forecast Revision Gain
特色指标:Forecast Revision Gain
Forecast Revision Gain = 初始预测误差 − 情境更新后预测误差

FutureCast(天星台) 的特色评估指标,直接衡量模型在获得新增情境证据后预测效果是否真正得到改善。 正值表明模型成功利用新情境修正了预测;这一指标可以直接体现模型是否具备情境自适应能力, 而非只是凭借历史序列的统计规律进行预测。

项目特色

FutureCast(天星台) 不只是一个时间序列预测数据集,而是一个面向情境感知预测能力的系统化 Benchmark:

FutureCast(天星台) 构建了包含历史时间序列、多源上下文情境、证据标注和预测目标的统一 Benchmark, 用于训练和评估下一代时间序列预测模型。 它关注的不只是模型能否预测未来数值,更关注模型能否理解情境、推理未来变化, 并在动态环境中自适应更新预测。