电力负荷预测 任务与 Benchmark 数据集

Electric Load Forecasting · 任务综述、公开数据集全景与推荐使用指引
整理自 28 个主流数据集,覆盖竞赛、系统运营商、深度学习 Benchmark、智能电表等六大来源

28 个数据集 6 大类别 GEFCom · ETT · ECL · AEMO ISO-NE · ENTSO-E · PJM BuildingsBench · Monash

任务定义与分类

电力负荷预测(Electricity Load Forecasting)是根据历史用电量、气象条件、日历信息等输入,预测未来电力系统需求的时间序列预测任务。 它是智能电网调度、电力市场交易、需求侧管理与新能源消纳的核心技术,也是时序预测研究中场景最丰富、数据最完善的领域之一。

28
公开数据集
6
数据来源类别
35+
覆盖国家/地区
1分钟
最细时间粒度
900K
最大建筑数量
超短期预测

时间范围:< 1 小时

用于实时调度、频率调节、自动发电控制(AGC)。要求极低延迟,通常采用在线学习或滚动预测方式。

短期预测

时间范围:1 小时 ~ 1 周

用于机组组合、日前调度、需求响应与现货市场竞价。是工程实践与学术研究最集中的预测粒度。

中期预测

时间范围:1 周 ~ 1 月

用于设备检修计划、电力合同签订与备用容量安排。受季节、温度和工业节律影响明显。

长期预测

时间范围:> 1 月

用于电网容量规划、基础设施投资和政策制定。需结合宏观经济与气候趋势,模型解释性要求高。

数据集分类概览

公开电力负荷预测数据集按来源性质可划分为六大类,各有不同的覆盖尺度、粒度和适用场景:

竞赛数据集

GEFCom 系列

有明确基准和排行榜,特别适合点预测与概率预测方法的横向对比。

GEFCom2012 GEFCom2014 GEFCom2017
系统运营商官方数据

ISO / TSO 公开数据

来自电网运营机构,权威可靠,覆盖大区域,时间跨度长,持续更新。

ISO-NE AEMO PJM ENTSO-E EIA ERCOT
UCI / 学术机构

标准学术数据集

干净规整,ML 社区广泛使用,下载门槛极低,适合算法原型验证。

UCI ECL UCI IHEPC
深度学习 Benchmark

TSLib / ETT 系列

专为长序列时序预测(LTSF)设计,配套代码丰富,是所有主流模型的必测基准。

ETTh1/h2 ETTm1/m2 ECL (321) Traffic
智能电表数据

户级 / 电路级分辨率

含用户行为、需求响应实验信息,适合 NILM、住宅预测与隐私计算研究。

London LCL CER Ireland Pecan Street AMPds2
大规模综合数据集

基础模型 / 多国数据

规模庞大,覆盖多类建筑或多国,适合时序基础模型预训练与零样本评估。

BuildingsBench Monash Real-E OPSD

重点数据集详情

竞赛系列数据集

GEFCom2012 · Global Energy Forecasting Competition 2012 – Load Track

引用极高
粒度 1 小时 范围 2004–2008 年 地区 美国(匿名) 序列数 21(20 区域 + 总量) 特征 负荷 + 11 站气温

首个全球性电力预测竞赛,预测任务为回填 8 周缺失数据(backcasting)和正向预测(forecasting),以 MAPE 评估。奠定了短期负荷预测竞赛的标准范式。

GEFCom2014 · Probabilistic Load Forecasting Track

引用极高
粒度 1 小时 地区 美国新英格兰(ISO-NE,匿名) 任务数 15 个(Task 1~15) 评估指标 Pinball Loss

概率负荷预测领域最常用基准,要求预测分位数而非点预测。包含约 7 年负荷数据与 9.75 年温度数据,被后续数百篇概率预测论文所采用。

GEFCom2017 · Hierarchical Probabilistic Load Forecasting

引用中高
粒度 1 小时 地区 美国新英格兰 8 区域 特色 层级预测 · 区域一致性约束

引入层级预测约束(hierarchical coherence),要求各区域预测结果与汇总层保持一致。是层级概率预测与多区域联合预测研究的核心基准。

系统运营商官方数据(ISO / TSO)

ISO-NE · New England Hourly Load Data

引用 #1(47次)
粒度 1 小时 范围 2003 年至今 地区 美国新英格兰 6 州 特征 负荷 + 气温 + 日期类型

短期负荷预测文献中被引频率最高的数据集(综述统计第 1 位),GEFCom2014/2017 的数据基础。官网免费下载,数据质量高,持续更新至今。

AEMO NEM · Australian National Electricity Market

引用 #2(35次)
粒度 30 分钟 范围 1998 年至今 地区 澳大利亚 5 州 序列数 5(NSW / QLD / SA / VIC / TAS)

澳大利亚电力市场运营商官方数据,覆盖时间最长(25 年以上)。含区域需求和实时区域参考电价(RRP),适用于短期区域预测和电价联合预测研究。

PJM · Hourly Energy Consumption(Kaggle 版)

引用 #6(11次)
粒度 1 小时 范围 2002–2018 地区 美国东部 14 区域 规模 145,336 条记录

获取门槛最低的美国区域负荷数据集之一,Kaggle 一键下载。覆盖美国东部 14 个 ISO 区域,是 LSTM / Transformer 等模型教程和快速原型的首选。

ENTSO-E · European Transparency Platform

引用 #5(15次)
粒度 1 小时(部分 15 分钟) 范围 2015 年至今 地区 欧洲 35 国 序列数 35+ 国家级

按欧盟法规强制披露的透明度平台,包含实际负荷、预测负荷、各类能源发电量及跨境电力流。免费注册 API,是欧洲多国比较研究和可再生能源整合研究的标准数据源。

深度学习 Benchmark(TSLib 系列)

以下数据集由清华大学 THUML 团队统一维护于 Time-Series-Library, 是 Informer、Autoformer、FEDformer、PatchTST、iTransformer 等系列 LTSF 论文的标准基准, 全部托管于 Hugging Face(CC BY 4.0),一键下载。

ETT · Electricity Transformer Temperature(ETTh1 / ETTh2 / ETTm1 / ETTm2)

LTSF 核心基准
粒度 h 系列 1h · m 系列 15min 范围 2016–2018 年(2 年) 地区 中国(省份匿名) 特征数 7(OT + 6 种负荷) 步数 h: 17,420 · m: 69,680

目标变量为变压器油温(OT),6 个协变量为高/中/低压有功/无功负荷。 由 Informer(AAAI 2021)论文发布,是目前公开的唯一来自中国大陆电网的大规模时序预测基准, 标准评估设置为预测 96 / 192 / 336 / 720 步。

ECL / Electricity · UCI ElectricityLoadDiagrams(321 条序列)

LTSF 必测基准
粒度 1 小时(原始 15min 重采样) 范围 2011–2014 年(4 年) 地区 葡萄牙 序列数 321 个工业/商业/住宅客户 步数 26,304 许可 CC BY 4.0

多变量长序列预测最广泛使用的基准数据集,LSTNet、Informer、PatchTST 等所有主流 LTSF 模型均在此评测。 TSLib 中的 electricity.csv 即为此数据集的处理版本。原始数据含 370 条序列, 去除部分低活跃客户后保留 321 条。

智能电表数据集(户级分辨率)

London Smart Meters · Low Carbon London Programme

引用高
粒度 30 分钟 范围 2011–2014 年 地区 英国伦敦 用户数 5,560 住宅 规模 ~1.67 亿行

含约 1,100 用户参与的动态分时电价(dToU)随机对照实验,适合需求响应研究。数据量庞大,Kaggle 和 Zenodo 均有整理版本。

CER Ireland · Commission for Energy Regulation Smart Metering

引用 #7(10次)
粒度 30 分钟 范围 2009–2010(75 周) 地区 爱尔兰 用户数 ~4,232 居民

含完整随机对照实验(RCT)设计,包含分时电价、智能显示器等多种干预方案,并附住户调查问卷。在开放访问学术数据集中引用次数最多(文献中第 7 位),需向 ISSDA 提交学术申请。

大规模综合数据集

BuildingsBench · NREL 900K Buildings Short-Term Load Forecasting

新兴 · NeurIPS 2023
粒度 15 分钟 地区 美国全国 规模 预训练集 ~110GB(Parquet) 建筑数 550K 住宅 + 350K 商业

目前规模最大的建筑能耗预测数据集,合成数据基于 NREL EULP 用 EnergyPlus 模拟生成。 配套 7 个真实评估数据集,专为时序基础模型预训练与零样本短期负荷预测而设计, 与 Chronos、TimesFM 等基础模型研究高度契合。

Monash Time Series Repository · 电力相关子集

引用高 · NeurIPS 2021
地区 全球多国 子集数 30+ 数据集 / 58 变体

澳大利亚莫纳什大学维护的时序预测标准存档库,电力相关子集包括: Electricity(321 序列 · 小时 / 周粒度)、Australian Electricity Demand(5 序列 · 30min)、 London Smart Meters(5,560 序列)等。所有数据集以统一格式发布,便于跨数据集比较。

Real-E · Foundation Benchmark for Electricity Forecasting

新兴 · CIKM 2025
粒度 15 分钟 ~ 1 小时 范围 2014–2024(10 年) 地区 欧洲 39 国 能源类型 20 种(风、光、水、热、核……)

面向电力基础模型鲁棒性评估的大规模 benchmark,覆盖 10 年跨度、39 国、20 种能源类型,着重关注非平稳性和跨国迁移预测场景。

数据集横向对比

系统运营商数据集对比

数据集 机构 时间范围 粒度 地区 / 序列数 核心特征 访问方式
ISO-NE 美国新英格兰 ISO 2003 至今 1h 美国 6 州 负荷 + 气温 官网免费
AEMO NEM 澳大利亚 AEMO 1998 至今 30min 澳大利亚 5 州 需求 + 实时电价 官网免费
PJM PJM Interconnection 2002 至今 1h 美国东部 14 区域 负荷(MW) Kaggle / 官网
ENTSO-E 欧洲 TSO 联盟 2015 至今 1h / 15min 欧洲 35 国 负荷 + 发电 + 跨境流 API(免费注册)
EIA Grid Monitor 美国能源信息局 2015 至今 1h 美国 64 BA 需求 + 分类发电 API(免费注册)
ERCOT 德克萨斯电网 多年 1h 美国德州 系统负荷(MWh) 官网免费

深度学习 Benchmark 数据集对比

数据集 来源 粒度 变量数 总步数 标准预测长度 获取难度
ETTh1 / ETTh2 中国电力(匿名) 1h 7 17,420 96 / 192 / 336 / 720 极易(GitHub / HF)
ETTm1 / ETTm2 中国电力(匿名) 15min 7 69,680 96 / 192 / 336 / 720 极易(GitHub / HF)
ECL / Electricity 葡萄牙(UCI) 1h 321 26,304 96 / 192 / 336 / 720 极易(UCI / HF)
Traffic 加州 Caltrans DOT 1h 862 17,544 96 / 192 / 336 / 720 极易(TSLib)

智能电表数据集对比

数据集 来源国 粒度 用户数 特色 获取难度
London LCL 英国 30min 5,560 含 dToU 随机实验 易(Kaggle / Zenodo)
CER Ireland 爱尔兰 30min ~4,232 含 RCT 实验 + 问卷 中(ISSDA 学术申请)
Pecan Street 美国 1min 数百 电路级 + EV 充电 中(学术账户申请)
AMPds2 加拿大 1min 1(住宅) 电 / 水 / 气三表联合 易(Harvard Dataverse)
UCI IHEPC 法国 1min 1(住宅) 含 3 个子表(厨房 / 洗衣 / 空调) 极易(UCI)

按研究场景的推荐数据集

短期负荷预测

1h ~ 1天 ahead · 工程实用基准

  • GEFCom2012 / 2014 — 成熟基准,便于横向对比
  • ISO-NE — 最高引用频率的学术数据集
  • AEMO NEM — 澳大利亚区域预测标准
  • PJM(Kaggle) — 下载最简单的美国区域数据
长序列时序预测(LTSF)

96 ~ 720 步 · 深度学习 benchmark

  • ETTh1 / ETTh2 / ETTm1 / ETTm2 — LTSF 领域标准基准
  • ECL / Electricity(321 序列) — Informer / PatchTST 必测
  • Traffic / Weather — 非电力,但同框评测常见
概率预测 / 不确定性量化

分位数 · 区间 · 场景预测

  • GEFCom2014 — Pinball Loss 标准框架,概率预测首选
  • GEFCom2017 — 层级概率预测场景
  • NREL 多区域数据集 — 含多分位点 scenario
时序基础模型 / 零样本

预训练 · 跨域迁移 · 通用评估

  • BuildingsBench(NREL) — 90万建筑,专为零样本设计
  • Real-E — 39国10年,跨国迁移评估
  • Monash 电力子集 — 统一格式,便于多数据集评估
住宅 / 建筑级预测

NILM · 需求响应 · 用户画像

  • London LCL — 5,560 户,含 TOU 实验,Kaggle 直接下载
  • CER Ireland — 含随机实验设计,行为分析首选
  • Pecan Street — 电路级分解,NILM 金标准
国内场景 / 中国数据

中国大陆数据现状说明

  • ETT — 唯一广泛使用的中国大陆电网公开数据
  • 2016 电工杯数据集 — 含气象特征,国内引用 10 次
  • 国家电网 / 南方电网数据整体保密,公开资源极为有限