CastStar 是一个面向时间序列推演的工具增强智能体系统,通过主动调用时序分析、知识检索、情境获取、预测模型和验证工具,围绕历史序列、外部情境与领域知识开展证据驱动的认知推理、趋势推演与预测修正,从而实现复杂系统未来趋势的可解释、可追溯、可验证预测。
CastStar 的核心技术哲学是通过工具调用实现证据驱动的时间序列推演:智能体首先借助时序分析、统计建模和可视化工具理解历史数值序列中的趋势、周期、波动和异常;随后自主收集天气、事件、政策、新闻、知识库和相似案例等情境线索;进一步围绕这些多源证据开展上下文认知推理,判断未来趋势在特定情境下的延续、增强、削弱、偏移或反转,并通过反思验证与预测修正形成可靠的推演结果。
CastStar 的技术主张不是“又一个 Time Series LLM”,而是系统探索 Agentic RL for Time Series Forecasting: 让模型学习如何分析、查证、调用工具、形成预测并通过反馈修正。
传统工作关注预测模型结构,CastStar 关注预测过程中的智能行为: 模型不只是输出未来值,而是学习如何感知序列状态、规划分析步骤、 选择证据来源,并在多轮决策中形成更可靠的预测。
CastStar 构建支持 Agent 与时序数据交互的环境, 让模型能够调用统计工具、小预测模型、检索系统、可视化分析、 异常检测和知识库,把预测从黑箱输出转变为证据驱动的预测决策。
CastStar 把预测过程从一次性生成升级为多步推理和决策过程。 Agent 在每一轮中维护任务状态,判断是否需要新证据,调用工具后再更新上下文与预测假设。
一句话论文 claim: CastStar 证明了时间序列预测可以被建模为一个可验证的智能体推理问题: 大模型能够通过工具调用、情境证据获取和预测反馈强化学习,逐步提升复杂系统预测能力。
CastStar 借助 Harness Engineering 思想构建了面向时间序列预测的工具环境, 为智能体提供可操作、可反馈、可验证的外部行动空间, 使模型能够在预测过程中主动感知数据、分析模式、调用模型、修正判断:
归一化、去噪、重采样、异常点标记,为后续分析和模型调用提供干净规范的时序输入。
插值补全、缺失片段标记与不确定性估计,支持非完整时序数据下的鲁棒预测。
平稳性检验、自相关与偏自相关分析、趋势检验,帮助模型理解序列的基本统计属性。
趋势分解(STL / EMD)、周期强度提取、统计特征计算,将数值序列转化为可推理的语义特征。
傅里叶变换、频谱分析、主频提取,识别隐藏的周期结构和频率域模式,辅助趋势归因。
协变量时间对齐、外部信号融合与相关性分析,将多源异构情境信号引入预测推理过程。
DLinear、PatchTST 等轻量化专家模型按需调用,提供快速数值参考,辅助智能体形成预测判断。
误差评估、置信区间验证与多模型结果对比,为智能体的反思修正提供可验证的外部反馈信号。
CastStar 采用三阶段递进训练路径:SFT 让模型会做,Reasoning 让模型会想, Agentic RL 让模型会行动。这一路线面向已有语言模型, 不以构建新的时序基础模型底座为核心目标,而是训练模型在 Harness 工具环境中进行 自主工具调用、上下文推理和多轮预测决策。
输入:高质量专家轨迹 + 工具调用协议 + 标准预测流程
负责让模型学会基本预测任务格式、时间序列 Token 输入理解、工具调用协议和标准工作流。 专家轨迹覆盖如何读取原始时序 Token、理解情境上下文、调用数据预处理 / 特征抽取 / 小模型工具,以及如何整合结果输出预测。
输入:推理数据蒸馏 + CoT 构造 + 过程监督 / 偏好优化
负责强化模型的上下文推理和工具反馈推理能力。这个阶段不一定需要 RL, 可以先通过推理数据蒸馏、CoT 数据构造、过程监督或偏好优化, 让模型学会分析趋势、周期、异常、外部事件影响,并解释工具结果和预测不确定性。
输入:Harness 工具环境交互 + 多源奖励信号
最核心阶段。模型在 Harness 构建的工具环境中进行多轮交互,学习何时调用工具、 调用哪个工具、如何组合工具链、如何利用工具结果更新上下文、 何时停止交互并输出预测。重点优化行动策略,而不是基础表征能力。 奖励可来自最终预测误差、过程奖励、工具调用成本、工具结果有效性和上下文更新质量。
CastStar 的关键在于把预测结果、工具行动和推理过程共同纳入可验证反馈。 奖励不是单一误差指标,而是面向 Agentic Forecasting 的多目标信号组合。
CastStar 的评估同时覆盖预测结果、智能体行为和可解释推理。 关键问题不是“是否会写解释”,而是“工具调用和反思修正是否真正提升预测质量”。
| 评估维度 | 关注问题 | 典型指标 |
|---|---|---|
| 数值预测 | 最终预测是否更准 | MAE · MSE · RMSE · sMAPE · MASE · CRPS |
| 趋势与结构 | 是否识别趋势、周期、转折和异常 | Direction Accuracy · Turning-point F1 · Pattern Hit Rate |
| 工具调用 | 是否调用了必要工具并控制成本 | Tool Recall · Tool Precision · Action Cost · Invalid Call Rate |
| 情境证据 | 是否利用外生变量、事件和领域知识 | Context Attribution · Evidence Use Rate · Counterfactual Robustness |
| 推理一致性 | 推理过程是否支持最终预测 | Prediction-Reasoning Consistency · Constraint Satisfaction |
| 反思修正 | 修正后是否比初始预测更好 | Revision Gain · Error Reduction · Violation Reduction |