NeoResearch · 智多星 — Forecast Research Operating System

TL;DR： NeoResearch 不是“会聊天的时序助手”，也不是无边界 AutoML。它把时间序列预测小模型研发变成一个受控自主研究闭环： Agent 在固定数据、评估、预算和代码协议内提出候选结构与训练配方，自动实验、归因、保留有效增量，并把成功与失败沉淀为可迁移研究记忆。

项目简介

时间序列预测领域已经形成高度碎片化的模型生态：Autoformer、PatchTST、iTransformer、DLinear、FITS、TimeMixer 等方法分别从分解、patching、变量 token、频域与 mixing 等角度切入。但每一个“小模型”的诞生，仍然需要研究员反复设计结构、调 loss、跑 ablation、记录经验。

NeoResearch 的目标是把这类重复而高频的研究动作系统化：人定义任务边界、预算和研究方向， Agent 在可审计的实验环境中完成候选生成、代码变更、训练评估、结果归因与记忆更新。产物不是单次回答，而是可复现的模型、recipe、实验记录、报告和跨任务经验。

系统层级
从 Human Control 到 Memory

核心服务模块
Task / Runner / Evaluator 等

评估层级
Dev / Reference / Blind

10 min

MVP 单轮预算
快速 keep / discard

核心问题

时间序列小模型研发不是简单的模型选择问题。真正困难的部分在于：模型结构、预处理、变量交互方式、预测头、训练目标和数据属性之间存在强耦合，而这些经验很难靠一次性搜索或自由代码生成稳定积累。

🔁

研究过程高度重复

同一类改动会在不同数据集、horizon 和变量设置下反复试验，人工记录与复盘成本高。

🧩

模型生态碎片化

不同论文模型往往绑定一整套设计，难以拆解成可组合、可审计的模块级 action。

📏

评估容易被污染

如果 Agent 能频繁读取 test 或修改数据切分，就会把研究系统变成隐性调参器。

🧠

经验难以迁移

“强季节性适合什么结构”“变量相关高时如何融合”这类经验需要跨任务沉淀。

系统边界

第一阶段聚焦 forecasting，不做开放式文献综述 Agent，不接管生产部署。
优先研究小模型：同时关注精度、参数量、延迟、稳定性与复现性。
先协议后智能：先冻结数据协议、评估协议、预算协议和代码边界，再让 Agent 在边界内创新。

系统架构

NeoResearch 的完整形态由七层组成：人类控制层负责边界和审批，Agent 编排层负责研究任务分解，搜索空间层提供 CandidateRecipe DSL 与 action registry，协议层固定数据与评估规则，执行层运行隔离实验，评估层判断晋级，记忆层沉淀经验。

NeoResearch system architecture — NeoResearch 将自主研究限制在固定协议和可审计闭环中，避免 Agent 自由修改全仓或反复窥探测试集。

核心服务模块

Task / Dataset / Diagnostic

创建 TaskSpec，绑定数据版本，抽取趋势、季节性、变量相关、缺失率等 TaskFingerprint。

Proposal / Patch / Validator

基于任务指纹和记忆生成 CandidateRecipe，再转为配置或模板化 patch，并检查越权、预算和接口兼容性。

Runner / Evaluator

在隔离执行环境中运行训练、收集 artifact、计算指标，并用统一晋级规则比较 challenger 与 champion。

Memory / Governance

保存实验谱系、失败模式、相似任务经验，同时保护 reference test 和 blind test 的访问权限。

研究闭环

MVP 阶段采用 autoresearch 同构的最小文件结构：冻结的 prepare_tsf.py 负责数据加载与评估， train.py 是 Agent 唯一可编辑实验层，program.md 则承载人类制定的研究策略与行为协议。

1

Round 0：建立基线 先跑固定 baseline，例如 NLinear CI、MLP、PatchTST / iTransformer 参照，形成初始 champion 和结果记录。
2

提出假设与候选配方 Research Manager 读取 TaskFingerprint 和历史记忆，生成少量候选 recipe，而不是无限制搜索。
3

验证、实验与晋级 候选先经静态检查、smoke run、低保真实验，再进入 full validation；MVP 可退化为 full run 后 keep / discard。
4

归因与记忆沉淀 Analyst 判断提升是否可靠，Librarian 把成功/失败压缩成可复用经验，供下一轮 candidate 排序。

autoresearch	NeoResearch MVP	角色
`prepare.py`	`prepare_tsf.py`	冻结数据加载、切分、标准化和评估协议
`train.py`	`train.py`	模型结构、loss、训练循环的受控实验层
`program.md`	`program.md`	人类定义研究策略、预算、keep / discard 规则
`val_bpb`	`val_avg_mse`	Agent 可见主指标，越低越好

CandidateRecipe 配方搜索

NeoResearch 的关键升级是从“选择完整模型族”转向 TimeRecipe 风格的模块级配方搜索。 Agent 不再直接问“用 PatchTST 还是 iTransformer”，而是在受限 registry 中选择 preprocessing、embedding、backbone、fusion、head 与 training strategy。

Input固定数据协议与上下文窗口

Preprocessinstance norm / decomposition

Embeddingnone / token / patch / invert

Backbonelinear / mlp / tcn / transformer

Fusiontemporal / feature / hybrid

Headlinear / multi-horizon / quantile

Trainingloss / optimizer / schedule

Forecast受控评估与晋级

首批 Action Space

模块	候选 action	研究偏置
Preprocessing	`none`, `instance_norm`, `series_decomposition`, `seasonal_differencing`	处理尺度漂移、趋势、季节性和缺失提示
Embedding	`none`, `token`, `patch`, `invert`, `frequency`	控制序列进入主干网络的表示粒度
Backbone	`linear`, `mlp`, `rnn`, `tcn`, `transformer`, `ssm`, `mixer`	探索轻量、低延迟与长依赖建模之间的权衡
Fusion / Head	`temporal`, `feature`, `gated_hybrid`, `linear`, `quantile`	决定优先建模时间依赖、变量依赖或不确定性输出

Recipe Prior

Dataset profiler 只在 train split 上计算任务指纹，再用 rule-based prior 或 rank predictor 给候选排序。例如，长 horizon 且 trend 强时优先尝试 series_decomposition + patch + temporal fusion + linear/mlp；变量相关性高时优先尝试 invert embedding + feature fusion。

评估协议与治理

NeoResearch 的第一原则是“先协议，后智能”。所有归一化、缺失填补和统计特征拟合只允许在 train fold 上完成； val_avg_mse 是 Agent 日常 keep / discard 的唯一决策信号，reference test 和 blind test 则由 Runner / Human Gate 保护。

TaskSpec

统一声明 task_id、forecast mode、context length、prediction lengths、dataset loader、split、metric、seed 与预算。

Time-Series Safety

禁止读取未来特征、修改 split、把 test 写入 Agent 可读日志，reference test 只在晋级节点查询。

三层评估协议

层次	名称	用途	查询频率
L1	Dev Validation	日常 keep / discard 决策	每次实验
L2	Reference Test / Shadow Holdout	晋级筛选与对外参考对齐	每 N 次 keep 后由 Runner 查询
L3	Blind Test	最终 champion 确认	仅晋级节点，后期独立服务暴露

人机分工

人类负责定义任务、冻结协议、批准搜索空间扩展和审核最终 champion； Agent 负责高频试验、候选生成、受限 patch、结果归因和研究记忆更新。这种分工让系统既能持续探索，又保留科研级审计、回滚与权限边界。

研发路线图

NeoResearch 的实现路线从最小闭环开始，而不是一开始就构建全功能平台。第一阶段先验证 Agent 能否在单任务、单文件、固定协议下形成有效 keep / discard 循环；随后再逐步引入 DSL、registry、低保真筛选、多 seed、研究记忆与 blind test 治理。

0

基础底座 实现 prepare_tsf.py、NLinear CI baseline、program.md 与 Phase 0a 闭环。
1

Recipe 化受限研究闭环 引入 action registry、CandidateRecipe DSL、Static Validator、Dataset profiler 和低保真筛选。
2

模块组合搜索 扩展 preprocessing / embedding / backbone / fusion / head / loss grammar，形成 recipe 谱系树。
3

统计验证与研究记忆 支持多 seed、Pareto front、Shadow Holdout、Memory Service 和相似任务召回。
4

治理与盲测 提供 blind test 服务、审批流、审计日志和完整研究报告生成。

成功指标

研究效果

相对 baseline 的 val_avg_mse 改进、Pareto 改进覆盖数据集数、top-k recipe 命中率。

研究效率

每次有效改进所需实验轮数、GPU 小时、候选到晋级的转化率。

工程可靠性

实验复现通过率、训练失败率、patch 回滚率、blind test 泄漏事件数。

知识积累

可复用 heuristic 数量、相似任务迁移成功率、失败模式覆盖率。

NeoResearch（智多星）