CastMind（星思） — 情境推理驱动的时间序列推演大模型

1. Backbone Network：预训练语言大模型作为推演主干

CastMind 不一定从零训练时间序列大模型，而是以预训练语言大模型作为 Backbone Network，利用其已有的语言理解、知识表达、复杂推理、指令跟随和工具调用能力，作为时间序列推演的认知核心。

它的输入不只是历史时间序列，还包括：

X_past, C, K, T

其中：

X_past：历史时间序列；
C：多源情境信息；
K：领域知识；
T：预测任务目标。

Backbone 的作用不是简单生成数值，而是完成：

历史序列理解、情境语义理解、时序—情境协同推理、未来趋势推演与预测修正。

这里可以配合时序编码器、统计工具、时序 tokenizer、特征提取器或可视化输入接口，把数值时序转化为大模型可理解、可推理的表示。

2. SFT：监督微调，让模型学会“如何推演”

SFT 的核心作用是把通用语言大模型适配到时间序列推演任务。

训练样本可以构造成：

历史序列 + 情境信息 + 任务指令 → 趋势理解 + 情境分析 + 推演判断 + 修正预测

SFT 重点训练模型学会四类能力：

历史序列理解：识别趋势、周期、波动、异常、转折点；
情境理解：判断天气、事件、政策、文本等情境是否与预测相关；
趋势推演：判断未来趋势是延续、增强、削弱、偏移还是反转；
预测修正：根据推演结果调整基础预测。

所以 SFT 的目标不是简单拟合数值，而是让模型学习一套标准化的推演工作流：

看懂历史 → 理解情境 → 推演未来 → 修正预测 → 生成解释。

3. RLVR：强化模型的可验证推演能力

RLVR 可以理解为 Reinforcement Learning with Verifiable Rewards，即用可验证奖励优化模型的推演行为。

它适合 CastMind，因为时间序列预测有天然可验证信号：

预测误差是否降低；
趋势方向是否判断正确；
峰谷位置是否命中；
转折点是否识别正确；
情境引用是否合理；
推演解释是否与数值修正一致；
是否避免 context leakage。

可以构造奖励函数：

R = R_forecast + R_trend + R_turning + R_context + R_consistency − R_leakage

其中：

R_forecast：预测误差奖励；
R_trend：趋势方向奖励；
R_turning：拐点识别奖励；
R_context：情境相关性奖励；
R_consistency：解释与预测修正一致性奖励；
R_leakage：未来信息泄漏惩罚。

RLVR 的价值在于让模型不只是“会说解释”，而是：

推演过程能够真正带来预测性能提升，并且推理结论可以被结果验证。

4. OPD：面向轻量化与稳定部署的策略蒸馏

OPD 可以作为 CastMind 后期的重要优化算法，即 On-policy Distillation。

它的思路是：先用强大的 CastMind-Agent 或大模型进行多轮情境推理、工具调用和预测修正，再把这些高质量推演轨迹蒸馏到更小、更快、更稳定的模型中。

OPD 蒸馏的不只是最终答案，而是整个推演策略：

历史理解 → 情境选择 → 推理路径 → 修正决策

这样可以得到：

更低推理成本；
更快响应速度；
更适合行业部署；
更稳定的预测修正能力；
保留强模型的情境推演策略。

所以 OPD 可以定位为：

将大模型/智能体的复杂推演能力压缩到轻量模型中的关键算法。

5. 数据质量评估与调度优化：决定模型能否真正学会推演

这是 CastMind 很关键的一层。因为情境感知预测不是数据越多越好，而是要求数据具有：

高情境相关性；
高机制多样性；
高趋势变化覆盖；
高信息密度；
低冗余；
低噪声；
无未来泄漏。

可以为每个训练样本设计质量评分：

Q_i = αR_i + βD_i + γM_i + ηI_i − λN_i − μL_i

其中：

R_i：情境相关性；
D_i：领域覆盖度；
M_i：机制多样性；
I_i：信息密度；
N_i：噪声程度；
L_i：信息泄漏风险。

然后通过调度优化控制训练数据采样：

p_i ∝ exp(Q_i / τ)

也就是优先训练高质量、高信息密度、高情境覆盖的数据，同时动态加入困难样本、失败案例和不同领域样本。

评估维度	指标	适用阶段
数值预测准确性	MAE · MSE · RMSE · sMAPE · MASE	全部阶段
概率预测质量	CRPS · Pinball Loss · PI Coverage	SFT / Structured Reasoning / Agentic Reasoning
趋势判断能力	Direction Accuracy · Turning-point F1	全部阶段
Feature Encoder 表示质量	Dynamic Pattern Coverage · Turning-point Capture · Temporal Embedding Separability	全部阶段
情境融入能力	Contextual Integration · Context Attribution · Context Utilization	SFT / Structured Reasoning / Agentic Reasoning
预测—推理一致性	Prediction-Reasoning Consistency Score	Structured Reasoning / Agentic Reasoning
环境交互质量	Interaction Seeking · Evidence Grounding · Forecast Revision · Environment Feedback Use	Agentic Reasoning
跨域泛化能力	Zero-shot / Few-shot 指标（FutureCast（天星台））	全部阶段

CastMind（星思）情境推理驱动的时间序列推演大模型

项目简介

关键技术路径

1. Backbone Network：预训练语言大模型作为推演主干

2. SFT：监督微调，让模型学会“如何推演”

3. RLVR：强化模型的可验证推演能力

4. OPD：面向轻量化与稳定部署的策略蒸馏

5. 数据质量评估与调度优化：决定模型能否真正学会推演

核心技术体系

历史序列

情境特征

训练 Instance 结构

四阶段训练范式

基础模型阶段
接入时间序列信号

任务适配阶段
按任务分析和预测

上下文推理阶段
推理式预测

Agentic Reasoning 阶段
环境自主多轮交互

CastMind-Agentic Reasoning 的三类策略优化

四阶段能力路线

接入时间序列

完成时序任务

上下文推理预测

自主获取证据并修正判断

评估体系

已见领域基础预测能力

跨领域情境感知泛化能力

评估指标总览

项目简介

关键技术路径

1. Backbone Network：预训练语言大模型作为推演主干

2. SFT：监督微调，让模型学会“如何推演”

3. RLVR：强化模型的可验证推演能力

4. OPD：面向轻量化与稳定部署的策略蒸馏

5. 数据质量评估与调度优化：决定模型能否真正学会推演

核心技术体系

历史序列

情境特征

训练 Instance 结构

四阶段训练范式

基础模型阶段接入时间序列信号

任务适配阶段按任务分析和预测

上下文推理阶段推理式预测

Agentic Reasoning 阶段环境自主多轮交互

CastMind-Agentic Reasoning 的三类策略优化

四阶段能力路线

接入时间序列

完成时序任务

上下文推理预测

自主获取证据并修正判断

评估体系

已见领域基础预测能力

跨领域情境感知泛化能力

评估指标总览

基础模型阶段
接入时间序列信号

任务适配阶段
按任务分析和预测

上下文推理阶段
推理式预测

Agentic Reasoning 阶段
环境自主多轮交互