FutureCast（天星台） — 面向情境感知时间序列预测的大模型训练语料与评估基准

一句话定位： FutureCast（天星台）是一个面向情境感知时间序列预测的 Benchmark 数据集与大模型训练语料库—— 将每个预测样本构造为“历史序列—上下文情境—证据标注—预测目标”的联合实例，系统化训练和评估模型的情境理解、因果推理与动态自适应三类核心能力。

项目简介

时间序列预测方法已从统计建模和深度学习逐步发展到时间序列基础模型。现有通用预测基准关注模型在跨领域、跨频率、跨预测长度场景下的泛化能力，但在真实预测场景中，未来变化往往不只由历史序列本身决定—— 天气、节假日、政策变化、突发事件、空间环境、领域知识和人类经验等多源异构情境因素对预测结果具有实质性影响，而现有 Benchmark 对这类信息的建模与评估仍然不足。

FutureCast（天星台）为弥补这一空白而构建。它借鉴 GIFT-Eval 等系统化 Benchmark 的设计思路，在多领域、多频率、多预测长度的基础上进一步引入情境维度，推动时间序列预测从序列模式拟合走向情境感知的未来推理。

核心能力维度
对齐 · 推理 · 自适应

设计原则
覆盖数据到评测

任务类型
从数值预测到动态修正

评估维度
含 Forecast Revision Gain

Instance

情境化预测样本

把历史序列、上下文证据、证据标注和预测目标组织成统一实例。

Capability

能力导向评测

围绕情境对齐、因果推理和动态修正，而不是只比较误差指标。

Protocol

训练测试隔离

通过时间、区域、事件和情境组合划分，降低未来信息泄漏风险。

Ecosystem

连接模型与智能体

作为 CastMind、Cast-R1、CastClaw 等工作的数据与评测底座。

为什么需要 FutureCast（天星台）

现有时间序列预测基准大多围绕数值序列本身构建，关注预测误差在不同领域、频率、预测长度下的表现。 GIFT-Eval 展示了这种系统化评估的重要性，但真实世界的预测任务往往具有更强的情境依赖性：

⚡

能源与电力

电力负荷受温度、节假日和工业活动影响，仅靠历史序列无法捕捉负荷突变的外部原因。

🚦

交通与出行

交通流量受天气、事故和大型活动影响，这些情境信号对短期预测尤为关键。

📈

金融与市场

政策变化、新闻事件和市场情绪直接驱动价格波动，情境理解能力是金融预测的核心。

🏥

医疗与健康

医疗时间序列受病人状态、治疗干预和临床知识影响，纯序列建模无法融入领域先验。

FutureCast（天星台）将评估重点从 general forecasting capability 拓展为 context-aware forecasting capability，不仅评估模型能否预测得准，还评估模型是否能够识别关键情境、对齐情境与序列变化、推理情境影响，并在新证据出现后动态修正预测。

FutureCast（天星台）关注的核心问题不只是：

模型能否预测未来数值？

而是：

模型能否理解未来为什么会变化，并在情境变化时动态更新预测？

Benchmark 设计原则

FutureCast（天星台）借鉴通用时间序列 Benchmark 的系统化设计思路，并进一步面向情境感知预测进行扩展，遵循以下五项原则：

1

训练与测试严格分离 构建训练集、验证集和测试集。训练集支持大模型预训练、指令微调和推理增强训练；测试集评估模型在未见时间段、未见区域、未见事件和未见情境组合下的泛化能力。
2

严格避免数据泄漏 对时间划分、数据来源、外部事件文本、未来信息和标注过程进行严格控制，避免模型在训练阶段接触测试期未来信息——参照 GIFT-Eval 的无泄漏预训练数据设计思路。
3

多维度系统覆盖 不仅覆盖不同领域、频率、预测长度和变量类型，还进一步覆盖不同情境类型、情境粒度、情境强度和情境变化模式，形成立体化的 Benchmark 覆盖体系。
4

多任务联合评估 不只提供数值预测任务，还提供情境选择、情境—序列对齐、趋势推理、事件影响分析、反事实预测、情境缺口识别、工具调用规划和预测修正等多类任务。
5

细粒度分组分析 对模型在不同领域、不同情境类型、不同预测长度、不同事件强度和不同动态变化场景下的表现进行分组分析，揭示模型真正擅长和薄弱的能力维度。

三大核心能力维度

FutureCast（天星台）围绕情境感知时间序列预测的三类关键能力展开，每一维度都针对真实预测场景中不同层次的情境建模需求：

🔗

情境语义对齐与融合建模

Context-Sequence Alignment & Fusion

关注多源异构上下文情境如何有效表示、语义对齐并融入预测模型。 FutureCast（天星台）的情境信息来自天气、日历、节假日、新闻事件、空间环境、业务规则和专家经验。模型需要判断哪些情境与当前预测任务相关，并将情境与目标时间序列的变化区间在语义、时间和预测目标上形成有效融合。

🧩

情境因果关联理解与推理建模

Causal Context Reasoning

关注情境因素如何影响未来趋势，模型如何从模式拟合走向原因分析、假设探索和证据验证。模型不仅需要输出预测值，还需要给出与情境证据一致的趋势判断和推理解释：高温是否推高电力负荷？政策变化是否影响能源需求？突发事件是否导致趋势突变？

🔄

动态情境自适应建模

Dynamic Context Adaptation

关注当情境变化或信息不完整时，模型如何主动发现情境缺口、获取新证据，并动态更新预测。 FutureCast（天星台）构建动态情境样本和多轮评估任务，使模型经历"初始预测—发现缺口—获取证据—更新推理—修正预测"的完整过程。

能力—任务—指标矩阵

能力维度	代表任务	关键评估信号
情境语义对齐	情境选择、情境—序列对齐、情境感知预测	Context Relevance Accuracy、Evidence Selection F1、预测误差变化
情境因果推理	趋势推理、事件影响分析、反事实预测、解释生成	Trend Accuracy、Counterfactual Consistency、Reasoning Faithfulness
动态自适应	情境缺口识别、工具调用规划、预测修正	Context Gap Detection、Tool-use Success Rate、Forecast Revision Gain

数据组成与划分

样本结构

FutureCast（天星台）中的每个样本被构造成一个 context-aware forecasting instance，包含八类组成部分：

Historical Series 原始历史观测、变量含义、采样频率和预测窗口。

→

Context Evidence 天气、节假日、事件、空间环境、业务规则和领域描述。

→

Evidence Label 相关情境、趋势标签、事件影响、证据依据和推理摘要。

→

Forecast Target 未来数值、趋势方向、变化点、预测区间和修正目标。

组成部分	内容说明
目标时间序列	历史观测值、变量名称、采样频率、预测长度
时间情境	日期、季节、工作日、周末、节假日、特殊时间段
空间情境	区域、站点、地理位置、环境状态、空间邻近关系
外部事件	天气变化、政策调整、突发事件、市场波动、重大活动
文本知识	新闻描述、事件摘要、领域背景、任务说明
领域先验	业务规则、专家知识、变量含义、历史经验
标注信息	相关情境、趋势标签、事件影响、证据依据、推理摘要
预测目标	未来数值、趋势方向、变化点、预测区间或事件结果

数据划分方式

FutureCast（天星台）采用多种划分策略，避免简单随机划分带来的信息泄漏和过拟合问题：

划分方式	目的
时间划分	模拟真实预测场景，避免未来信息泄漏
领域划分	评估跨领域泛化能力
区域划分	评估跨空间迁移能力
事件划分	评估未见事件下的情境推理能力
情境组合划分	评估复杂情境组合下的鲁棒性
Hard Test Set	评估极端天气、突发事件、分布漂移和长预测窗口场景

多层任务体系

FutureCast（天星台）支持从基础预测到情境推理、再到动态自适应的完整多层任务体系，覆盖十类任务：

情境感知预测

结合历史序列与上下文情境预测未来数值，是 FutureCast（天星台）的基础任务。

情境选择

判断哪些情境因素与当前预测任务相关，评估模型的情境感知与过滤能力。

情境—序列对齐

将外部事件或上下文描述与时间序列的变化区间进行时间对齐。

趋势推理

基于情境证据判断未来趋势方向，要求模型给出有据可查的趋势判断。

事件影响分析

分析外部事件对未来走势的潜在影响及其作用机制和量化程度。

反事实预测

改变某一情境条件后预测未来变化，评估模型的假设推理与因果理解能力。

情境缺口识别

判断当前预测还缺少哪些关键情境信息，驱动主动信息获取行为。

工具调用规划

选择需要调用的数据源、检索工具或分析工具，支持 Agentic TSF 评估。

预测修正

根据新增情境证据动态更新预测结果，衡量 Forecast Revision Gain。

解释生成

生成基于证据的预测解释和不确定性说明，评估推理可解释性和忠实度。

评估协议

FutureCast（天星台）的评估协议覆盖五个维度，从数值预测准确性到动态自适应能力进行全面衡量：

Dimension 1

数值预测准确性

MAE · RMSE · MAPE · sMAPE · CRPS

Dimension 2

趋势判断能力

Direction Accuracy · Trend Accuracy · Turning-point F1

Dimension 3

情境理解能力

Context Relevance Accuracy · Evidence Selection F1

Dimension 4

推理解释质量

Evidence-grounded Score · Reasoning Faithfulness · Counterfactual Consistency

Dimension 5

动态自适应能力

Context Gap Detection · Tool-use Success Rate · Forecast Revision Gain

特色指标：Forecast Revision Gain

Forecast Revision Gain = 初始预测误差 − 情境更新后预测误差

FutureCast（天星台）的特色评估指标，直接衡量模型在获得新增情境证据后预测效果是否真正得到改善。正值表明模型成功利用新情境修正了预测；这一指标可以直接体现模型是否具备情境自适应能力，而非只是凭借历史序列的统计规律进行预测。

项目特色

FutureCast（天星台）不只是一个时间序列预测数据集，而是一个面向情境感知预测能力的系统化 Benchmark：

1

从序列中心到情境中心 不再只关注历史序列和未来标签，而是将预测任务建模为序列与情境共同作用的未来推理问题，构建更贴近真实场景的预测实例。
2

从数值预测到证据推理 不仅评估误差指标，还评估模型是否能够识别关键情境、解释趋势变化，并给出基于证据的预测理由——推动预测模型从"黑盒外推"走向"可解释推理"。
3

从静态输入到动态自适应 支持多轮情境更新任务，评估模型是否能够主动发现信息缺口、获取新证据并修正预测——以 Forecast Revision Gain 量化动态自适应能力。
4

从单一任务到多能力评估 同时覆盖预测、选择、对齐、推理、反事实和交互式修正等十类任务，提供多维度模型能力剖析，揭示不同模型真正擅长和薄弱的场景。
5

从普通数据集到大模型训练语料 提供适用于 CPT、SFT 和 RL 的情境感知时间序列语料，同时支持 LLM-driven TSF、Slow-thinking TSF 和 Agentic TSF 的训练与评估，与 CastFactory（铸星坊）训练框架形成闭环。

FutureCast（天星台）构建了包含历史时间序列、多源上下文情境、证据标注和预测目标的统一 Benchmark，用于训练和评估下一代时间序列预测模型。它关注的不只是模型能否预测未来数值，更关注模型能否理解情境、推理未来变化，并在动态环境中自适应更新预测。