数据集:

electricity_load_diagrams

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

no-annotation

源数据集:

original
英文

Electricity Load Diagrams 数据集卡片

数据集摘要

该数据集包含了2011年至2014年期间葡萄牙370个客户的每小时总有功功率的时间序列数据。

数据集用途

数据集具有以下配置参数:

  • 频率(freq):数据序列重采样的频率(默认值: "1H")
  • 预测长度(prediction_length):用于验证和测试分割的预测时间跨度(默认值: 24)
  • 滚动评估(rolling_evaluations):测试分割中滚动窗口的时间序列个数,用于评估目的(默认值: 7)

例如,您可以通过以下方式指定与论文中不同的自定义配置:

load_dataset("electricity_load_diagrams", "uci", rolling_evaluations=10)

注意:

  • 数据集中没有缺失值。
  • 值以每15分钟的千瓦转换为每小时。要将值转换为千瓦时,必须将值除以4。
  • 所有时间标签都参考葡萄牙时间,但是每天都包含96个测量值(即24*4)。
  • 每年的三月份时间改变那天(只有23个小时),所有时间点上的值在凌晨1点至2点之间为零。
  • 每年十月份时间改变那天(有25个小时),凌晨1点至2点之间的值将两个小时的用电量合并。

支持的任务和排行榜

  • 单变量时间序列预测:时间序列预测任务涉及学习数据集中时间序列的未来目标值,预测长度为给定时间步长。然后可以通过验证分割中的真实值和测试分割中的结果来验证预测的准确性。

语言

数据集结构

数据集中没有缺失值。原始值以每15分钟为间隔的千瓦表示,并重新采样为每小时数据。每个时间序列代表一个客户。在2011年之后创建的一些客户的用电量被视为零。所有时间标签都参考葡萄牙时间,但每天都包含96个测量值(即24*4)。每年的三月份时间改变那天(只有23个小时),凌晨1点至2点之间的值为零。每年十月份时间改变那天(有25个小时),凌晨1点至2点之间的值是两个小时的用电量总和。

数据实例

下面是训练集的一个样本:

{
  'start': datetime.datetime(2012, 1, 1, 0, 0),
  'target': [14.0, 18.0, 21.0, 20.0, 22.0, 20.0, 20.0, 20.0, 13.0, 11.0], # <= this target array is a concatenated sample
  'feat_static_cat': [0], 
  'item_id': '0'
}

我们有两个配置uci和lstnet,具体如下。

时间序列被重新采样为每小时频率。我们在预测长度为24的7个滚动窗口上进行测试。

因此,对于uci配置,验证集的结束时间比每个时间序列的结束时间早24*7个时间步长。训练集的结束时间比验证集的结束时间早24个时间步长。

对于lsnet配置,我们将训练窗口分割为完整时间序列长度的0.6部分,验证集占完整时间序列长度的0.8部分,并将最后0.2部分的时间窗口作为测试集,其中每个滚动窗口包含24个时间步长。最后,参照LSTNet论文的做法,我们只考虑2012年至2014年期间有活动的时间序列,这给我们留下了320个时间序列。

数据字段

对于这个单变量的规则时间序列,我们有:

  • 开始时间(start):数据集中每个时间序列的第一条数据的日期时间
  • 目标值(target):实际目标值的数组[float32]
  • 静态分类特征(feat_static_cat):数据集中每个时间序列的分类标识符数组[uint64]
  • 项目标识(item_id):用于参考的每个时间序列的字符串标识符

根据频率(freq)和开始时间(start),我们可以为目标数组中的每个条目分配一个日期时间。

数据拆分

name train unsupervised test
uci 370 2590 370
lstnet 320 2240 320

数据集创建

Electricity Load Diagrams 2011–2014 数据集由Artur Trindade开发,并在UCI机器学习数据库中共享。该数据集涵盖了葡萄牙370个变电站从2011年初到2014年底的电力负荷情况,采样周期为15分钟。我们将对其进行重新采样,转换为每小时时间序列。

策展原理

研究和开发负荷预测方法,特别是短期电力预测。

来源数据

该数据集涵盖了葡萄牙370个变电站在2011年初到2014年底的电力负荷情况,采样周期为15分钟。

具体数据收集和规范化过程

[需要更多信息]

语言制作人员是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策展人员

[需要更多信息]

授权信息

[需要更多信息]

引用信息

@inproceedings{10.1145/3209978.3210006,
    author = {Lai, Guokun and Chang, Wei-Cheng and Yang, Yiming and Liu, Hanxiao},
    title = {Modeling Long- and Short-Term Temporal Patterns with Deep Neural Networks},
    year = {2018},
    isbn = {9781450356572},
    publisher = {Association for Computing Machinery},
    address = {New York, NY, USA},
    url = {https://doi.org/10.1145/3209978.3210006},
    doi = {10.1145/3209978.3210006},
    booktitle = {The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval},
    pages = {95--104},
    numpages = {10},
    location = {Ann Arbor, MI, USA},
    series = {SIGIR '18}
}

贡献者

感谢 @kashif 添加此数据集。