CastMind(星思) 情境推理驱动的时间序列推演大模型

CastMind 是一个面向复杂系统的情境推理驱动时间序列推演大模型,通过融合历史序列、外部情境与领域知识,推演未来趋势在特定条件下的延续、增强、削弱、偏移或反转,并实现预测修正与机制解释。

CastMind 是一个面向复杂系统的情境推理驱动时间序列推演大模型,旨在突破传统预测仅依赖历史数值外推的局限。模型首先基于历史序列挖掘趋势、周期、波动和变量依赖,形成基础未来轨迹;随后融合天气、事件、政策、文本、领域知识和系统状态等多源情境,理解系统运行条件;进一步通过大模型的知识推理与机制分析,判断历史趋势在特定情境下是否延续、增强、削弱、偏移或反转,并完成未来趋势的条件化推演与预测修正。

项目简介

CastMind 的核心技术哲学,是用慢思考、长链路、可验证的认知推理过程,实现对时间序列未来趋势的条件化推演。其关键技术路径围绕“外推—理解—推演—修正”展开,将历史数值模式、多源情境信息和大模型推理能力组织为一个可解释、可修正的预测流程。

01
历史序列理解与基础轨迹外推

模型通过时间序列编码器或时序 Tokenizer 对历史序列进行表征学习,挖掘趋势、周期、波动、局部形态和多变量依赖,形成基于历史数值模式的基础未来轨迹。

02
多源情境获取与可信质量评估

模型引入天气、节假日、事件、政策、新闻文本、领域知识和系统状态等多源情境信息,并通过跨模态对齐机制将数值时序与语义情境统一到可推理的表示空间中。

03
时序—情境协同推理与趋势推演

CastMind 借助大模型的情境理解、知识调用、机制分析和结构化推理能力,判断历史趋势在特定情境下是否延续、增强、削弱、偏移或反转。

04
推演驱动的预测修正与解释生成

模型将推演结果转化为对基础预测的修正量,输出最终预测结果、趋势变化解释和不确定性判断,并通过监督微调、强化学习、工具调用反馈和案例记忆不断提升情境推理与趋势推演能力。

关键技术路径

预训练语言大模型作为 Backbone Network,SFT / RLVR / OPD 作为能力优化算法,数据质量评估与调度优化作为训练与泛化的基础支撑。

1. Backbone Network:预训练语言大模型作为推演主干

CastMind 不一定从零训练时间序列大模型,而是以预训练语言大模型作为 Backbone Network,利用其已有的语言理解、知识表达、复杂推理、指令跟随和工具调用能力,作为时间序列推演的认知核心。

它的输入不只是历史时间序列,还包括:

Xpast, C, K, T

其中:

  • Xpast:历史时间序列;
  • C:多源情境信息;
  • K:领域知识;
  • T:预测任务目标。

Backbone 的作用不是简单生成数值,而是完成:

历史序列理解、情境语义理解、时序—情境协同推理、未来趋势推演与预测修正。

这里可以配合时序编码器、统计工具、时序 tokenizer、特征提取器或可视化输入接口,把数值时序转化为大模型可理解、可推理的表示。

2. SFT:监督微调,让模型学会“如何推演”

SFT 的核心作用是把通用语言大模型适配到时间序列推演任务。

训练样本可以构造成:

历史序列 + 情境信息 + 任务指令 → 趋势理解 + 情境分析 + 推演判断 + 修正预测

SFT 重点训练模型学会四类能力:

  1. 历史序列理解:识别趋势、周期、波动、异常、转折点;
  2. 情境理解:判断天气、事件、政策、文本等情境是否与预测相关;
  3. 趋势推演:判断未来趋势是延续、增强、削弱、偏移还是反转;
  4. 预测修正:根据推演结果调整基础预测。

所以 SFT 的目标不是简单拟合数值,而是让模型学习一套标准化的推演工作流:

看懂历史 → 理解情境 → 推演未来 → 修正预测 → 生成解释。

3. RLVR:强化模型的可验证推演能力

RLVR 可以理解为 Reinforcement Learning with Verifiable Rewards,即用可验证奖励优化模型的推演行为。

它适合 CastMind,因为时间序列预测有天然可验证信号:

  • 预测误差是否降低;
  • 趋势方向是否判断正确;
  • 峰谷位置是否命中;
  • 转折点是否识别正确;
  • 情境引用是否合理;
  • 推演解释是否与数值修正一致;
  • 是否避免 context leakage。

可以构造奖励函数:

R = Rforecast + Rtrend + Rturning + Rcontext + Rconsistency − Rleakage

其中:

  • Rforecast:预测误差奖励;
  • Rtrend:趋势方向奖励;
  • Rturning:拐点识别奖励;
  • Rcontext:情境相关性奖励;
  • Rconsistency:解释与预测修正一致性奖励;
  • Rleakage:未来信息泄漏惩罚。

RLVR 的价值在于让模型不只是“会说解释”,而是:

推演过程能够真正带来预测性能提升,并且推理结论可以被结果验证。

4. OPD:面向轻量化与稳定部署的策略蒸馏

OPD 可以作为 CastMind 后期的重要优化算法,即 On-policy Distillation

它的思路是:先用强大的 CastMind-Agent 或大模型进行多轮情境推理、工具调用和预测修正,再把这些高质量推演轨迹蒸馏到更小、更快、更稳定的模型中。

OPD 蒸馏的不只是最终答案,而是整个推演策略:

历史理解 → 情境选择 → 推理路径 → 修正决策

这样可以得到:

  • 更低推理成本;
  • 更快响应速度;
  • 更适合行业部署;
  • 更稳定的预测修正能力;
  • 保留强模型的情境推演策略。

所以 OPD 可以定位为:

将大模型/智能体的复杂推演能力压缩到轻量模型中的关键算法。

5. 数据质量评估与调度优化:决定模型能否真正学会推演

这是 CastMind 很关键的一层。因为情境感知预测不是数据越多越好,而是要求数据具有:

  • 高情境相关性;
  • 高机制多样性;
  • 高趋势变化覆盖;
  • 高信息密度;
  • 低冗余;
  • 低噪声;
  • 无未来泄漏。

可以为每个训练样本设计质量评分:

Qi = αRi + βDi + γMi + ηIi − λNi − μLi

其中:

  • Ri:情境相关性;
  • Di:领域覆盖度;
  • Mi:机制多样性;
  • Ii:信息密度;
  • Ni:噪声程度;
  • Li:信息泄漏风险。

然后通过调度优化控制训练数据采样:

pi ∝ exp(Qi / τ)

也就是优先训练高质量、高信息密度、高情境覆盖的数据,同时动态加入困难样本、失败案例和不同领域样本。

核心技术体系

CastMind(星思)的推演输入由历史序列情境特征两个模块构成: 前者提供数值轨迹基础,后者提供条件约束与机制解释。

Sequence Module

历史序列

历史序列是 CastMind 进行趋势推演的基础观测信号,负责刻画连续变化、局部波动、 周期结构、异常点、转折点和多变量依赖,形成可被后续情境推理修正的基础未来轨迹。

Trend · Seasonality · Volatility · Turning Point · Multivariate Dependency
Context Module

情境特征

情境特征为预测提供外部条件和领域约束,包括天气、节假日、事件、政策、文本、 领域知识和系统状态等信息,用于判断历史趋势在特定情境下是否延续、增强、削弱、 偏移或反转。

Weather · Events · Policy · Text · Domain Knowledge · System State

训练 Instance 结构

一个典型的 CastMind(星思)训练样本包含以下八类信息:

Instance = {
  dynamic_numeric_sequence Feature Encoder 原生建模的动态数值序列
  context_aware_features 外部情境证据(天气、事件、日历、空间、环境状态…)
  domain_metadata 领域、频率、变量、单位信息
  forecasting_instruction 预测任务定义
  future_target 未来真实值(监督信号)
  reasoning_trace 结构化上下文推理过程(SFT / Reasoning 阶段学习)
  agentic_interaction_trace 环境交互、证据获取与预测修正轨迹
  reward_signals 结果奖励 + 推理过程奖励 + Agentic 交互反馈
}

四阶段训练范式

CastMind(星思)采用四个能力递进阶段: CastMind-Base → CastMind-SFT → CastMind-Structured Reasoning → CastMind-Agentic Reasoning。 Base 阶段解决"如何以 Feature Encoder 接入动态数值序列";SFT 阶段解决"如何融合 Context-aware Feature 完成时序任务"; Structured Reasoning 阶段解决"如何进行上下文推理预测";Agentic Reasoning 阶段解决 "如何与环境自主多轮交互、获取证据并修正判断"。

Stage 1CastMind-Base
接入时间序列
Stage 2CastMind-SFT
完成时序任务
Stage 3Structured Reasoning
上下文推理预测
Stage 4Agentic Reasoning
自主多轮交互
Stage 1 · CastMind-Base

基础模型阶段
接入时间序列信号

输入:原始时间序列 + 多模态情境 + 跨域语料

核心目标是建立"Feature Encoder + LLM Backbone"的模型底座。 原始时间序列首先经过 Feature Encoder 在数值空间中建模动态变化, 再输入语言模型,使模型具备跨域时间序列表征、基础预测、上下文融合和 多模态情境对齐能力。这个阶段重点不是复杂推理,而是让语言模型真正接入动态数值序列信号。

输出:CastMind-Base
Stage 2 · CastMind-SFT

任务适配阶段
按任务分析和预测

输入:监督微调任务样本 + 预测与解释示范

核心目标是让模型从"能表示时间序列"进一步变成 "能按照任务要求分析和预测时间序列"。 通过监督微调,模型学习趋势分析、预测生成、异常解释、外生变量理解、 Meta Data 融合、领域描述理解和 Context-aware Feature 对齐, 解决指令跟随、任务格式、预测输出和基础解释问题。

输出:CastMind-SFT
Stage 3 · CastMind-Structured Reasoning

上下文推理阶段
推理式预测

输入:结构化时序推理样本 + 推理质量反馈

核心目标是强化模型的结构化上下文推理能力。 模型不只是直接输出预测结果,而是能够围绕趋势变化、周期波动、异常扰动、 事件影响、情境变化和未来演化路径展开分步分析。 这个阶段把时间序列预测从"模式外推"推进到"推理式预测"。

输出:CastMind-Structured Reasoning
Stage 4 · CastMind-Agentic Reasoning

Agentic Reasoning 阶段
环境自主多轮交互

输入:环境状态 + Memory/工具交互 + 证据检索与修正轨迹

核心目标是让 CastMind(星思)具备可评估的 Agentic Reasoning 能力。 模型在预测过程中可以主动发现证据缺口,与 Memory、检索器、外部变量服务和任务环境 自主多轮交互,检索历史相似模式、领域知识、失败经验、数据分析结论和过往预测轨迹, 并基于新证据持续修正上下文判断和最终预测。这个阶段强调环境交互闭环, 不是一次性的工具调用展示。

输出:CastMind-Agentic Reasoning

CastMind-Agentic Reasoning 的三类策略优化

四阶段能力路线

CastMind(星思)的四个阶段不是简单的 Base / SFT / RL 分段, 而是明确对应四类能力跃迁:

CastMind-Base

接入时间序列

基础模型阶段

建立 Feature Encoder + LLM Backbone 的模型底座。 原始动态数值序列被编码为 temporal embeddings 后输入语言模型, 让模型具备跨域时序表征、基础预测、上下文融合和多模态情境对齐能力。

CastMind-SFT

完成时序任务

任务适配阶段

通过监督微调学习趋势分析、预测生成、异常解释、外生变量理解、 Meta Data 融合、领域描述理解和 Context-aware Feature 对齐, 解决指令跟随、任务格式、预测输出和基础解释能力。

CastMind-Structured Reasoning

上下文推理预测

结构化推理阶段

强化结构化上下文推理能力,围绕趋势变化、周期波动、异常扰动、 事件影响、情境变化和未来演化路径展开分步分析, 将预测从模式外推推进到推理式预测。

CastMind-Agentic Reasoning

自主获取证据并修正判断

自主交互推理阶段

在预测过程中主动发现证据缺口,与 Memory、检索器、上下文工具、 外部变量服务和任务环境自主多轮交互,检索历史相似模式、领域知识、 失败经验、数据分析结论和过往预测轨迹,并基于新证据持续修正中间判断和最终预测。

这一路线可以概括为: Base 阶段解决"如何以 Feature Encoder 接入动态数值序列";SFT 阶段解决"如何融合 Context-aware Feature 完成时序任务"; Structured Reasoning 阶段解决"如何进行上下文推理预测";Agentic Reasoning 阶段解决 "如何与环境自主多轮交互、获取证据并修正判断"。

评估体系

CastMind(星思)的评估同时覆盖 in-domain 能力out-of-domain 泛化能力, 全面验证 Feature Encoder、Context-aware Feature 与 Agentic Reasoning 的综合增益:

In-domain 评估

已见领域基础预测能力

使用现有数据集测试集,检验 CastMind(星思)在已见领域和数据分布下的性能。

  • 点预测指标:MAE · MSE · RMSE · sMAPE · MASE
  • 概率预测指标:CRPS · Pinball Loss · Prediction Interval Coverage
  • Encoder 指标:动态数值序列表示质量 · 关键变化点捕获 · 趋势方向一致性
  • Context 指标:Context Attribution · 情境归因一致性 · 可见上下文利用率
  • Agentic 指标:交互触发准确性 · 环境证据利用率 · 预测修正有效性

在四个阶段(Base / SFT / Structured Reasoning / Agentic Reasoning)间进行对比,展示各阶段对预测、上下文推理与环境交互能力的增益。

Out-of-domain 评估

跨领域情境感知泛化能力

FutureCast(天星台) 为核心评测集,构造未见领域、未见上下文类型和复杂情境变化下的预测任务。

  • 能否适应新的领域和采样频率
  • 能否理解未见的 Context-aware Feature 类型
  • 能否在外部事件、分布漂移、非平稳变化和信息不完整下给出稳健预测
  • 能否通过上下文推理解释未来趋势变化
  • 能否在信息不完整时与环境自主多轮交互并修正预测
  • 能否输出合理的不确定性估计

评估指标总览

评估维度指标适用阶段
数值预测准确性MAE · MSE · RMSE · sMAPE · MASE全部阶段
概率预测质量CRPS · Pinball Loss · PI CoverageSFT / Structured Reasoning / Agentic Reasoning
趋势判断能力Direction Accuracy · Turning-point F1全部阶段
Feature Encoder 表示质量Dynamic Pattern Coverage · Turning-point Capture · Temporal Embedding Separability全部阶段
情境融入能力Contextual Integration · Context Attribution · Context UtilizationSFT / Structured Reasoning / Agentic Reasoning
预测—推理一致性Prediction-Reasoning Consistency ScoreStructured Reasoning / Agentic Reasoning
环境交互质量Interaction Seeking · Evidence Grounding · Forecast Revision · Environment Feedback UseAgentic Reasoning
跨域泛化能力Zero-shot / Few-shot 指标(FutureCast(天星台))全部阶段

CastMind 借鉴大模型慢思考推理范式,构建面向时间序列推演的长链路认知推理机制,通过多步情境分析、知识调用、机制判断和反思修正,实现对复杂系统未来趋势的可解释、可验证预测。