CastStar 情境感知的时间序列推演智能体

训练具备慢思考、工具调用、情境理解、反思修正能力的时间序列预测智能体, 让大模型从“直接给预测结果”进化为“会分析、会查证、会调用工具、会反思、会修正”的预测决策系统。

一句话定位: CastStar 是一个面向时间序列推演的智能体系统,通过工具调用、证据获取、认知推理、反思验证与预测修正,实现对复杂系统未来趋势的可解释、可验证推演。

项目简介

CastStar 是一个面向时间序列推演的工具增强智能体系统,通过主动调用时序分析、知识检索、情境获取、预测模型和验证工具,围绕历史序列、外部情境与领域知识开展证据驱动的认知推理、趋势推演与预测修正,从而实现复杂系统未来趋势的可解释、可追溯、可验证预测。

CastStar 的核心技术哲学是通过工具调用实现证据驱动的时间序列推演:智能体首先借助时序分析、统计建模和可视化工具理解历史数值序列中的趋势、周期、波动和异常;随后自主收集天气、事件、政策、新闻、知识库和相似案例等情境线索;进一步围绕这些多源证据开展上下文认知推理,判断未来趋势在特定情境下的延续、增强、削弱、偏移或反转,并通过反思验证与预测修正形成可靠的推演结果。

Perception
历史动态与情境理解
Action
工具调用与证据获取
Forecasting
上下文推理与趋势推演
Reflection
反思与验证
6
Agent 能力
理解 · 感知 · 调用 · 推理 · 反思 · 报告
8
Harness 工具
覆盖预测全链路
3
训练阶段
Tool SFT · Reasoning SFT · Agentic RL
5
奖励信号
误差 · 趋势 · 工具 · 一致性 · 反思

创新定位

CastStar 的技术主张不是“又一个 Time Series LLM”,而是系统探索 Agentic RL for Time Series Forecasting: 让模型学习如何分析、查证、调用工具、形成预测并通过反馈修正。

01

从模型预测到 Agentic Forecasting

Prediction as Sequential Decision Making

传统工作关注预测模型结构,CastStar 关注预测过程中的智能行为: 模型不只是输出未来值,而是学习如何感知序列状态、规划分析步骤、 选择证据来源,并在多轮决策中形成更可靠的预测。

02

工具增强的时序推理环境

Tool-augmented Time-series Environment

CastStar 构建支持 Agent 与时序数据交互的环境, 让模型能够调用统计工具、小预测模型、检索系统、可视化分析、 异常检测和知识库,把预测从黑箱输出转变为证据驱动的预测决策。

模拟专家思维的时序预测

CastStar 把预测过程从一次性生成升级为多步推理和决策过程。 Agent 在每一轮中维护任务状态,判断是否需要新证据,调用工具后再更新上下文与预测假设。

Perception
趋势 · 周期 · 异常
Planning
识别证据缺口
Tool Use
分析 · 检索 · 小模型
Reasoning
历史 + 情境 + 工具反馈
Forecasting
数值 · 区间 · 趋势
Reflection
约束与证据检查
Revision
修正预测与报告

Agentic 预测实例结构

CastStar Forecasting Episode = {
  history_series 历史时间序列与可见窗口
  context_evidence 外生变量、事件、日历、领域背景与任务描述
  tool_environment 统计分析、检索、可视化、小预测模型、异常诊断等工具
  reasoning_trace 分析、证据整合、预测假设与不确定性判断
  reflection_trace 预测后检查、约束验证与错误修正轨迹
  reward_signals 预测误差、趋势判断、工具质量、推理一致性与反思有效性
}

一句话论文 claim: CastStar 证明了时间序列预测可以被建模为一个可验证的智能体推理问题: 大模型能够通过工具调用、情境证据获取和预测反馈强化学习,逐步提升复杂系统预测能力。

面向时序预测的工具环境

CastStar 借助 Harness Engineering 思想构建了面向时间序列预测的工具环境, 为智能体提供可操作、可反馈、可验证的外部行动空间, 使模型能够在预测过程中主动感知数据、分析模式、调用模型、修正判断:

数据预处理工具

归一化、去噪、重采样、异常点标记,为后续分析和模型调用提供干净规范的时序输入。

缺失值处理工具

插值补全、缺失片段标记与不确定性估计,支持非完整时序数据下的鲁棒预测。

统计诊断工具

平稳性检验、自相关与偏自相关分析、趋势检验,帮助模型理解序列的基本统计属性。

特征抽取工具

趋势分解(STL / EMD)、周期强度提取、统计特征计算,将数值序列转化为可推理的语义特征。

频域分析工具

傅里叶变换、频谱分析、主频提取,识别隐藏的周期结构和频率域模式,辅助趋势归因。

外生变量处理工具

协变量时间对齐、外部信号融合与相关性分析,将多源异构情境信号引入预测推理过程。

预训练小模型调用

DLinear、PatchTST 等轻量化专家模型按需调用,提供快速数值参考,辅助智能体形成预测判断。

预测结果评估工具

误差评估、置信区间验证与多模型结果对比,为智能体的反思修正提供可验证的外部反馈信号。

Tool SFT → Reasoning Tuning → Agentic RL

CastStar 采用三阶段递进训练路径:SFT 让模型会做,Reasoning 让模型会想, Agentic RL 让模型会行动。这一路线面向已有语言模型, 不以构建新的时序基础模型底座为核心目标,而是训练模型在 Harness 工具环境中进行 自主工具调用、上下文推理和多轮预测决策。

Stage 1 · Tool SFT

监督微调
任务格式与标准工作流

输入:高质量专家轨迹 + 工具调用协议 + 标准预测流程

负责让模型学会基本预测任务格式、时间序列 Token 输入理解、工具调用协议和标准工作流。 专家轨迹覆盖如何读取原始时序 Token、理解情境上下文、调用数据预处理 / 特征抽取 / 小模型工具,以及如何整合结果输出预测。

能力:会做 · 任务格式 · 工具协议 · 标准流程
Stage 2 · Reasoning Tuning

推理增强
上下文与工具反馈理解

输入:推理数据蒸馏 + CoT 构造 + 过程监督 / 偏好优化

负责强化模型的上下文推理和工具反馈推理能力。这个阶段不一定需要 RL, 可以先通过推理数据蒸馏、CoT 数据构造、过程监督或偏好优化, 让模型学会分析趋势、周期、异常、外部事件影响,并解释工具结果和预测不确定性。

能力:会想 · 上下文推理 · 工具反馈推理 · 不确定性解释
Stage 3 · Agentic RL

智能体强化学习
行动策略优化

输入:Harness 工具环境交互 + 多源奖励信号

最核心阶段。模型在 Harness 构建的工具环境中进行多轮交互,学习何时调用工具、 调用哪个工具、如何组合工具链、如何利用工具结果更新上下文、 何时停止交互并输出预测。重点优化行动策略,而不是基础表征能力。 奖励可来自最终预测误差、过程奖励、工具调用成本、工具结果有效性和上下文更新质量。

能力:会行动 · 工具选择 · 工具链组合 · 上下文更新 · 停止决策

奖励机制

CastStar 的关键在于把预测结果、工具行动和推理过程共同纳入可验证反馈。 奖励不是单一误差指标,而是面向 Agentic Forecasting 的多目标信号组合。

性能评估

CastStar 的评估同时覆盖预测结果、智能体行为和可解释推理。 关键问题不是“是否会写解释”,而是“工具调用和反思修正是否真正提升预测质量”。

Forecasting Metrics

结果质量

  • 点预测:MAE · MSE · RMSE · sMAPE · MASE
  • 概率预测:CRPS · Pinball Loss · Prediction Interval Coverage
  • 趋势判断:Direction Accuracy · Turning-point F1
  • 稳健性:OOD 泛化 · 非平稳变化 · 缺失与异常场景
Agent Metrics

过程质量

  • 工具策略:必要工具召回率 · 无效工具调用率 · 工具成本
  • 证据利用:Context Grounding · Evidence Attribution
  • 推理一致性:Prediction-Reasoning Consistency
  • 反思修正:Revision Gain · Constraint Violation Reduction

泛化评估

In-Domain Generalization

In-Domain 泛化

  • 同域新序列:在相同数据域、相同变量体系下评估未见序列的预测质量。
  • 时间切片泛化:检验不同时间窗口、不同预测长度和不同季节阶段下的稳定性。
  • 样本扰动鲁棒性:评估缺失、噪声、异常点和局部结构变化对预测与推理的影响。
Out-Domain Generalization

Out-Domain 泛化

  • 跨数据集迁移:测试模型从训练域迁移到新行业、新传感器或新业务场景的表现。
  • 分布漂移适应:关注非平稳变化、制度切换、突发事件和外部情境变化下的预测修正能力。
  • 工具与证据泛化:检验智能体能否在新任务中自主选择工具、获取证据并维持推理一致性。

指标总览

评估维度关注问题典型指标
数值预测最终预测是否更准MAE · MSE · RMSE · sMAPE · MASE · CRPS
趋势与结构是否识别趋势、周期、转折和异常Direction Accuracy · Turning-point F1 · Pattern Hit Rate
工具调用是否调用了必要工具并控制成本Tool Recall · Tool Precision · Action Cost · Invalid Call Rate
情境证据是否利用外生变量、事件和领域知识Context Attribution · Evidence Use Rate · Counterfactual Robustness
推理一致性推理过程是否支持最终预测Prediction-Reasoning Consistency · Constraint Satisfaction
反思修正修正后是否比初始预测更好Revision Gain · Error Reduction · Violation Reduction