CastStar — Agentic Time Series Forecasting Model

一句话定位： CastStar 是一个面向时间序列推演的智能体系统，通过工具调用、证据获取、认知推理、反思验证与预测修正，实现对复杂系统未来趋势的可解释、可验证推演。

项目简介

CastStar 是一个面向时间序列推演的工具增强智能体系统，通过主动调用时序分析、知识检索、情境获取、预测模型和验证工具，围绕历史序列、外部情境与领域知识开展证据驱动的认知推理、趋势推演与预测修正，从而实现复杂系统未来趋势的可解释、可追溯、可验证预测。

CastStar 的核心技术哲学是通过工具调用实现证据驱动的时间序列推演：智能体首先借助时序分析、统计建模和可视化工具理解历史数值序列中的趋势、周期、波动和异常；随后自主收集天气、事件、政策、新闻、知识库和相似案例等情境线索；进一步围绕这些多源证据开展上下文认知推理，判断未来趋势在特定情境下的延续、增强、削弱、偏移或反转，并通过反思验证与预测修正形成可靠的推演结果。

Perception

历史动态与情境理解

→

Action

工具调用与证据获取

→

Forecasting

上下文推理与趋势推演

→

Reflection

反思与验证

Agent 能力
理解 · 感知 · 调用 · 推理 · 反思 · 报告

Harness 工具
覆盖预测全链路

训练阶段
Tool SFT · Reasoning SFT · Agentic RL

奖励信号
误差 · 趋势 · 工具 · 一致性 · 反思

创新定位

CastStar 的技术主张不是“又一个 Time Series LLM”，而是系统探索 Agentic RL for Time Series Forecasting：让模型学习如何分析、查证、调用工具、形成预测并通过反馈修正。

从模型预测到 Agentic Forecasting

Prediction as Sequential Decision Making

传统工作关注预测模型结构，CastStar 关注预测过程中的智能行为：模型不只是输出未来值，而是学习如何感知序列状态、规划分析步骤、选择证据来源，并在多轮决策中形成更可靠的预测。

工具增强的时序推理环境

Tool-augmented Time-series Environment

CastStar 构建支持 Agent 与时序数据交互的环境，让模型能够调用统计工具、小预测模型、检索系统、可视化分析、异常检测和知识库，把预测从黑箱输出转变为证据驱动的预测决策。

模拟专家思维的时序预测

CastStar 把预测过程从一次性生成升级为多步推理和决策过程。 Agent 在每一轮中维护任务状态，判断是否需要新证据，调用工具后再更新上下文与预测假设。

Perception

趋势 · 周期 · 异常

→

Planning

识别证据缺口

→

Tool Use

分析 · 检索 · 小模型

→

Reasoning

历史 + 情境 + 工具反馈

→

Forecasting

数值 · 区间 · 趋势

→

Reflection

约束与证据检查

→

Revision

修正预测与报告

Agentic 预测实例结构

CastStar Forecasting Episode = {
  history_series ← 历史时间序列与可见窗口
  context_evidence ← 外生变量、事件、日历、领域背景与任务描述
  tool_environment ← 统计分析、检索、可视化、小预测模型、异常诊断等工具
  reasoning_trace ← 分析、证据整合、预测假设与不确定性判断
  reflection_trace ← 预测后检查、约束验证与错误修正轨迹
  reward_signals ← 预测误差、趋势判断、工具质量、推理一致性与反思有效性
}

一句话论文 claim： CastStar 证明了时间序列预测可以被建模为一个可验证的智能体推理问题：大模型能够通过工具调用、情境证据获取和预测反馈强化学习，逐步提升复杂系统预测能力。

面向时序预测的工具环境

CastStar 借助 Harness Engineering 思想构建了面向时间序列预测的工具环境，为智能体提供可操作、可反馈、可验证的外部行动空间，使模型能够在预测过程中主动感知数据、分析模式、调用模型、修正判断：

数据预处理工具

归一化、去噪、重采样、异常点标记，为后续分析和模型调用提供干净规范的时序输入。

缺失值处理工具

插值补全、缺失片段标记与不确定性估计，支持非完整时序数据下的鲁棒预测。

统计诊断工具

平稳性检验、自相关与偏自相关分析、趋势检验，帮助模型理解序列的基本统计属性。

特征抽取工具

趋势分解（STL / EMD）、周期强度提取、统计特征计算，将数值序列转化为可推理的语义特征。

频域分析工具

傅里叶变换、频谱分析、主频提取，识别隐藏的周期结构和频率域模式，辅助趋势归因。

外生变量处理工具

协变量时间对齐、外部信号融合与相关性分析，将多源异构情境信号引入预测推理过程。

预训练小模型调用

DLinear、PatchTST 等轻量化专家模型按需调用，提供快速数值参考，辅助智能体形成预测判断。

预测结果评估工具

误差评估、置信区间验证与多模型结果对比，为智能体的反思修正提供可验证的外部反馈信号。

Tool SFT → Reasoning Tuning → Agentic RL

CastStar 采用三阶段递进训练路径：SFT 让模型会做，Reasoning 让模型会想， Agentic RL 让模型会行动。这一路线面向已有语言模型，不以构建新的时序基础模型底座为核心目标，而是训练模型在 Harness 工具环境中进行自主工具调用、上下文推理和多轮预测决策。

Stage 1 · Tool SFT

监督微调
任务格式与标准工作流

输入：高质量专家轨迹 + 工具调用协议 + 标准预测流程

负责让模型学会基本预测任务格式、时间序列 Token 输入理解、工具调用协议和标准工作流。专家轨迹覆盖如何读取原始时序 Token、理解情境上下文、调用数据预处理 / 特征抽取 / 小模型工具，以及如何整合结果输出预测。

能力：会做 · 任务格式 · 工具协议 · 标准流程

Stage 2 · Reasoning Tuning

推理增强
上下文与工具反馈理解

输入：推理数据蒸馏 + CoT 构造 + 过程监督 / 偏好优化

负责强化模型的上下文推理和工具反馈推理能力。这个阶段不一定需要 RL，可以先通过推理数据蒸馏、CoT 数据构造、过程监督或偏好优化，让模型学会分析趋势、周期、异常、外部事件影响，并解释工具结果和预测不确定性。

能力：会想 · 上下文推理 · 工具反馈推理 · 不确定性解释

Stage 3 · Agentic RL

智能体强化学习
行动策略优化

输入：Harness 工具环境交互 + 多源奖励信号

最核心阶段。模型在 Harness 构建的工具环境中进行多轮交互，学习何时调用工具、调用哪个工具、如何组合工具链、如何利用工具结果更新上下文、何时停止交互并输出预测。重点优化行动策略，而不是基础表征能力。奖励可来自最终预测误差、过程奖励、工具调用成本、工具结果有效性和上下文更新质量。

能力：会行动 · 工具选择 · 工具链组合 · 上下文更新 · 停止决策

奖励机制

CastStar 的关键在于把预测结果、工具行动和推理过程共同纳入可验证反馈。奖励不是单一误差指标，而是面向 Agentic Forecasting 的多目标信号组合。

1

数值预测奖励 · Forecast Accuracy 用 MAE、MSE、sMAPE、MASE、CRPS 或 Pinball Loss 衡量预测值与真实未来之间的误差，作为最基础的可验证反馈。
2

趋势与结构奖励 · Trend and Pattern Recognition 判断模型是否正确识别上升、下降、转折、周期、异常、变点和分布漂移，避免只追逐局部数值误差。
3

工具调用奖励 · Tool Action Quality 评估模型是否在合适时机调用必要工具，是否避免无效工具链，并能把统计诊断、小模型预测和检索证据用于修正判断。
4

推理一致性奖励 · Reasoning-Forecast Consistency 检查推理轨迹是否真正支持最终预测，工具反馈、情境证据和预测结论之间是否存在冲突。
5

反思有效性奖励 · Reflection Improvement 关注初始预测经过诊断和反思后是否变好，鼓励模型发现不合理假设并进行有证据支撑的预测修正。

性能评估

CastStar 的评估同时覆盖预测结果、智能体行为和可解释推理。关键问题不是“是否会写解释”，而是“工具调用和反思修正是否真正提升预测质量”。

Forecasting Metrics

结果质量

点预测：MAE · MSE · RMSE · sMAPE · MASE
概率预测：CRPS · Pinball Loss · Prediction Interval Coverage
趋势判断：Direction Accuracy · Turning-point F1
稳健性：OOD 泛化 · 非平稳变化 · 缺失与异常场景

Agent Metrics

过程质量

工具策略：必要工具召回率 · 无效工具调用率 · 工具成本
证据利用：Context Grounding · Evidence Attribution
推理一致性：Prediction-Reasoning Consistency
反思修正：Revision Gain · Constraint Violation Reduction

泛化评估

In-Domain Generalization

In-Domain 泛化

同域新序列：在相同数据域、相同变量体系下评估未见序列的预测质量。
时间切片泛化：检验不同时间窗口、不同预测长度和不同季节阶段下的稳定性。
样本扰动鲁棒性：评估缺失、噪声、异常点和局部结构变化对预测与推理的影响。

Out-Domain Generalization

Out-Domain 泛化

跨数据集迁移：测试模型从训练域迁移到新行业、新传感器或新业务场景的表现。
分布漂移适应：关注非平稳变化、制度切换、突发事件和外部情境变化下的预测修正能力。
工具与证据泛化：检验智能体能否在新任务中自主选择工具、获取证据并维持推理一致性。

指标总览

评估维度	关注问题	典型指标
数值预测	最终预测是否更准	MAE · MSE · RMSE · sMAPE · MASE · CRPS
趋势与结构	是否识别趋势、周期、转折和异常	Direction Accuracy · Turning-point F1 · Pattern Hit Rate
工具调用	是否调用了必要工具并控制成本	Tool Recall · Tool Precision · Action Cost · Invalid Call Rate
情境证据	是否利用外生变量、事件和领域知识	Context Attribution · Evidence Use Rate · Counterfactual Robustness
推理一致性	推理过程是否支持最终预测	Prediction-Reasoning Consistency · Constraint Satisfaction
反思修正	修正后是否比初始预测更好	Revision Gain · Error Reduction · Violation Reduction