FutureCast(天星台) 将预测样本从"历史序列—未来标签"扩展为 "历史序列—上下文情境—证据标注—预测目标", 系统评估下一代时间序列预测模型的情境理解、因果推理与动态自适应能力。
中国科学技术大学 · 认知智能全国重点实验室 · AGI 研究组
时间序列预测方法已从统计建模和深度学习逐步发展到时间序列基础模型。 现有通用预测基准关注模型在跨领域、跨频率、跨预测长度场景下的泛化能力, 但在真实预测场景中,未来变化往往不只由历史序列本身决定—— 天气、节假日、政策变化、突发事件、空间环境、领域知识和人类经验等 多源异构情境因素对预测结果具有实质性影响,而现有 Benchmark 对这类信息的建模与评估仍然不足。
FutureCast(天星台) 为弥补这一空白而构建。它借鉴 GIFT-Eval 等系统化 Benchmark 的设计思路, 在多领域、多频率、多预测长度的基础上进一步引入情境维度, 推动时间序列预测从序列模式拟合走向情境感知的未来推理。
现有时间序列预测基准大多围绕数值序列本身构建, 关注预测误差在不同领域、频率、预测长度下的表现。 GIFT-Eval 展示了这种系统化评估的重要性,但真实世界的预测任务往往具有更强的情境依赖性:
电力负荷受温度、节假日和工业活动影响,仅靠历史序列无法捕捉负荷突变的外部原因。
交通流量受天气、事故和大型活动影响,这些情境信号对短期预测尤为关键。
政策变化、新闻事件和市场情绪直接驱动价格波动,情境理解能力是金融预测的核心。
医疗时间序列受病人状态、治疗干预和临床知识影响,纯序列建模无法融入领域先验。
FutureCast(天星台) 将评估重点从 general forecasting capability 拓展为 context-aware forecasting capability, 不仅评估模型能否预测得准,还评估模型是否能够识别关键情境、对齐情境与序列变化、 推理情境影响,并在新证据出现后动态修正预测。
FutureCast(天星台) 关注的核心问题不只是:
模型能否预测未来数值?
而是:
模型能否理解未来为什么会变化,并在情境变化时动态更新预测?
FutureCast(天星台) 借鉴通用时间序列 Benchmark 的系统化设计思路, 并进一步面向情境感知预测进行扩展,遵循以下五项原则:
FutureCast(天星台) 围绕情境感知时间序列预测的三类关键能力展开, 每一维度都针对真实预测场景中不同层次的情境建模需求:
关注多源异构上下文情境如何有效表示、语义对齐并融入预测模型。 FutureCast(天星台) 的情境信息来自天气、日历、节假日、新闻事件、空间环境、业务规则和专家经验。 模型需要判断哪些情境与当前预测任务相关, 并将情境与目标时间序列的变化区间在语义、时间和预测目标上形成有效融合。
关注情境因素如何影响未来趋势,模型如何从模式拟合走向原因分析、假设探索和证据验证。 模型不仅需要输出预测值,还需要给出与情境证据一致的趋势判断和推理解释: 高温是否推高电力负荷?政策变化是否影响能源需求?突发事件是否导致趋势突变?
关注当情境变化或信息不完整时,模型如何主动发现情境缺口、获取新证据,并动态更新预测。 FutureCast(天星台) 构建动态情境样本和多轮评估任务, 使模型经历"初始预测—发现缺口—获取证据—更新推理—修正预测"的完整过程。
FutureCast(天星台) 中的每个样本被构造成一个 context-aware forecasting instance, 包含八类组成部分:
| 组成部分 | 内容说明 |
|---|---|
| 目标时间序列 | 历史观测值、变量名称、采样频率、预测长度 |
| 时间情境 | 日期、季节、工作日、周末、节假日、特殊时间段 |
| 空间情境 | 区域、站点、地理位置、环境状态、空间邻近关系 |
| 外部事件 | 天气变化、政策调整、突发事件、市场波动、重大活动 |
| 文本知识 | 新闻描述、事件摘要、领域背景、任务说明 |
| 领域先验 | 业务规则、专家知识、变量含义、历史经验 |
| 标注信息 | 相关情境、趋势标签、事件影响、证据依据、推理摘要 |
| 预测目标 | 未来数值、趋势方向、变化点、预测区间或事件结果 |
FutureCast(天星台) 采用多种划分策略,避免简单随机划分带来的信息泄漏和过拟合问题:
| 划分方式 | 目的 |
|---|---|
| 时间划分 | 模拟真实预测场景,避免未来信息泄漏 |
| 领域划分 | 评估跨领域泛化能力 |
| 区域划分 | 评估跨空间迁移能力 |
| 事件划分 | 评估未见事件下的情境推理能力 |
| 情境组合划分 | 评估复杂情境组合下的鲁棒性 |
| Hard Test Set | 评估极端天气、突发事件、分布漂移和长预测窗口场景 |
FutureCast(天星台) 支持从基础预测到情境推理、再到动态自适应的完整多层任务体系, 覆盖十类任务:
结合历史序列与上下文情境预测未来数值,是 FutureCast(天星台) 的基础任务。
判断哪些情境因素与当前预测任务相关,评估模型的情境感知与过滤能力。
将外部事件或上下文描述与时间序列的变化区间进行时间对齐。
基于情境证据判断未来趋势方向,要求模型给出有据可查的趋势判断。
分析外部事件对未来走势的潜在影响及其作用机制和量化程度。
改变某一情境条件后预测未来变化,评估模型的假设推理与因果理解能力。
判断当前预测还缺少哪些关键情境信息,驱动主动信息获取行为。
选择需要调用的数据源、检索工具或分析工具,支持 Agentic TSF 评估。
根据新增情境证据动态更新预测结果,衡量 Forecast Revision Gain。
生成基于证据的预测解释和不确定性说明,评估推理可解释性和忠实度。
FutureCast(天星台) 的评估协议覆盖五个维度,从数值预测准确性到动态自适应能力进行全面衡量:
MAE · RMSE · MAPE · sMAPE · CRPS
Direction Accuracy · Trend Accuracy · Turning-point F1
Context Relevance Accuracy · Evidence Selection F1
Evidence-grounded Score · Reasoning Faithfulness · Counterfactual Consistency
Context Gap Detection · Tool-use Success Rate · Forecast Revision Gain
FutureCast(天星台) 的特色评估指标,直接衡量模型在获得新增情境证据后预测效果是否真正得到改善。 正值表明模型成功利用新情境修正了预测;这一指标可以直接体现模型是否具备情境自适应能力, 而非只是凭借历史序列的统计规律进行预测。
FutureCast(天星台) 不只是一个时间序列预测数据集,而是一个面向情境感知预测能力的系统化 Benchmark:
FutureCast(天星台) 构建了包含历史时间序列、多源上下文情境、证据标注和预测目标的统一 Benchmark, 用于训练和评估下一代时间序列预测模型。 它关注的不只是模型能否预测未来数值,更关注模型能否理解情境、推理未来变化, 并在动态环境中自适应更新预测。